Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Generierung menschlicher Bewegungen spielt eine entscheidende Rolle in Anwendungen wie digitalen Menschen und der Steuerung humanoider Roboter. Die meisten bestehenden Ansätze ignorieren jedoch physikalische Einschränkungen, was häufig zu unrealistischen Bewegungen mit deutlichen Artefakten wie Schweben und Fußrutschen führt. In diesem Artikel schlagen wir Morph vor, ein Bewegungsfreies Physik-Optimierungsframework, bestehend aus einem Bewegungsgenerator und einem Bewegungsphysik-Verfeinerungsmodul, um die physikalische Plausibilität zu verbessern, ohne teure Bewegungsdaten aus der realen Welt zu benötigen. Der Bewegungsgenerator ist speziell für die Bereitstellung von synthetischen Bewegungsdaten verantwortlich, während das Bewegungsphysik-Verfeinerungsmodul diese synthetischen Daten nutzt, um einen Bewegungsimitator innerhalb eines Physiksimulators zu trainieren. Dieser erzwingt physikalische Einschränkungen, um die rauschhaften Bewegungen in einen physikalisch plausiblen Raum zu projizieren. Diese physikalisch verfeinerten Bewegungen werden wiederum genutzt, um den Bewegungsgenerator feinzutunen und somit seine Leistungsfähigkeit weiter zu verbessern. Experimente sowohl in Text-zu-Bewegung als auch in Musik-zu-Tanz Generierungsaufgaben zeigen, dass unser Framework eine Bewegungsgenerierungsqualität auf dem neuesten Stand der Technik erreicht, während es die physikalische Plausibilität drastisch verbessert.
Vision-Language-Modelle (VLMs) haben bemerkenswerte Fortschritte bei multimodalen Denkaufgaben gezeigt. Dennoch erzeugen sie oft ungenaue oder irrelevante Antworten aufgrund von Problemen wie halluzinierten Bildverständnissen oder unverfeinerten Denkpfaden. Um diesen Herausforderungen zu begegnen, stellen wir Critic-V vor, ein neuartiges Framework, das vom Actor-Critic-Paradigma inspiriert ist, um die Denkfähigkeit von VLMs zu steigern. Dieses Framework entkoppelt den Denkprozess und den Kritikprozess, indem es zwei unabhängige Komponenten integriert: den Reasoner, der Denkpfade auf der Grundlage visueller und textueller Eingaben generiert, und den Critic, der konstruktive Kritik bereitstellt, um diese Pfade zu verfeinern. In diesem Ansatz generiert der Reasoner Denkantworten gemäß Texteingaben, die sich iterativ als Richtlinie entwickeln können, basierend auf dem Feedback des Critics. Dieser Interaktionsprozess wurde theoretisch von einem Verstärkungslernrahmen geleitet, bei dem der Critic anstelle von skalaren Belohnungen sprachliche Kritiken anbietet, um nuancierteres Feedback zur Steigerung der Fähigkeit des Reasoners bei komplexen Denkaufgaben zu ermöglichen. Das Critic-Modell wird mit der Direkten Präferenzoptimierung (DPO) trainiert, wobei ein Präferenzdatensatz von Kritiken, bewertet durch Regelbasierte Belohnung (RBR), genutzt wird, um seine Kritikfähigkeiten zu verbessern. Evaluierungsergebnisse zeigen, dass das Critic-V-Framework signifikant bessere Leistungen als bestehende Methoden, einschließlich GPT-4V, bei 5 von 8 Benchmarks erzielt, insbesondere hinsichtlich der Denkgenauigkeit und -effizienz. Die Kombination einer dynamischen textbasierten Richtlinie für den Reasoner und konstruktives Feedback vom präferenzoptimierten Critic ermöglicht einen zuverlässigeren und kontextsensitiven multimodalen Denkprozess. Unser Ansatz bietet eine vielversprechende Lösung zur Verbesserung der Zuverlässigkeit von VLMs und zur Steigerung ihrer Leistungsfähigkeit in realen, denkschweren multimodalen Anwendungen wie autonomes Fahren und verkörperte Intelligenz.
Dieses Paper stellt Virtual Try-Off (VTOFF) vor, eine neuartige Aufgabe, die sich auf die Erzeugung standardisierter Kleidungsstückbilder aus einzelnen Fotos bekleideter Personen konzentriert. Im Gegensatz zum traditionellen Virtual Try-On (VTON), bei dem Modelle digital bekleidet werden, zielt VTOFF darauf ab, ein kanonisches Kleidungsstückbild zu extrahieren, was einzigartige Herausforderungen bei der Erfassung von Kleidungsform, -textur und komplexen Mustern mit sich bringt. Dieses klar definierte Ziel macht VTOFF besonders effektiv zur Bewertung der Rekonstruktionsgenauigkeit in generativen Modellen. Wir präsentieren TryOffDiff, ein Modell, das Stable Diffusion mit SigLIP-basierter visueller Konditionierung anpasst, um eine hohe Genauigkeit und Detailtreue sicherzustellen. Experimente mit einem modifizierten VITON-HD Datensatz zeigen, dass unser Ansatz Basismethoden, die auf Pose-Transfer und virtuellem Anprobieren basieren, mit weniger Vor- und Nachverarbeitungsschritten übertreffen. Unsere Analyse zeigt, dass herkömmliche Bildgenerierungsmetriken die Rekonstruktionsqualität unzureichend bewerten, was uns dazu veranlasst, uns auf DISTS für eine genauere Bewertung zu verlassen. Unsere Ergebnisse heben das Potenzial von VTOFF zur Verbesserung von Produktbildern in E-Commerce-Anwendungen hervor, zur Weiterentwicklung der Bewertung generativer Modelle und zur Inspiration für zukünftige Arbeiten zur hochwertigen Rekonstruktion. Demo, Code und Modelle sind verfügbar unter: https://rizavelioglu.github.io/tryoffdiff/
Trotz der signifikanten Fortschritte bei textbasierten Bildgenerierungsmodellen (T2I) stehen Benutzer in der Praxis oft vor einer Versuchs-und-Irrtum-Herausforderung. Diese Schwierigkeit ergibt sich aus der Komplexität und Unsicherheit mühsamer Schritte wie dem Erstellen geeigneter Anfragen, der Auswahl passender Modelle und der Konfiguration spezifischer Argumente, wodurch Benutzer zu arbeitsintensiven Versuchen für gewünschte Bilder greifen müssen. Dieser Artikel schlägt die automatische Generierung von T2I vor, die darauf abzielt, diese mühsamen Schritte zu automatisieren und es Benutzern ermöglicht, ihre Bedürfnisse einfach in einer freien Chat-Form zu beschreiben. Um dieses Problem systematisch zu untersuchen, führen wir zunächst ChatGenBench ein, einen neuartigen Benchmark, der für die automatische T2I entwickelt wurde. Er bietet hochwertige gepaarte Daten mit vielfältigen freien Eingaben und ermöglicht eine umfassende Bewertung automatischer T2I-Modelle in allen Schritten. Darüber hinaus schlagen wir ChatGen-Evo vor, eine Multi-Stage-Evolutionstrategie, die automatische T2I als komplexe mehrstufige Denkaufgabe betrachtet und Modelle schrittweise mit wesentlichen Automatisierungsfähigkeiten ausstattet. Durch umfangreiche Bewertung hinsichtlich schrittweiser Genauigkeit und Bildqualität verbessert ChatGen-Evo die Leistung signifikant im Vergleich zu verschiedenen Baselines. Unsere Bewertung enthüllt auch wertvolle Erkenntnisse zur Weiterentwicklung der automatischen T2I. Alle unsere Daten, Codes und Modelle werden unter https://chengyou-jia.github.io/ChatGen-Home verfügbar sein.
Wir schlagen SelfSplat vor, ein neuartiges 3D-Gauß'sches Splatting-Modell, das entwickelt wurde, um eine posenfreie und 3D-vorherfreie generalisierbare 3D-Rekonstruktion aus unposierten Multi-View-Bildern durchzuführen. Diese Einstellungen sind inhärent schlecht gestellt aufgrund des Mangels an Ground-Truth-Daten, erlernten geometrischen Informationen und der Notwendigkeit, eine genaue 3D-Rekonstruktion ohne Feinabstimmung zu erreichen, was es für konventionelle Methoden schwierig macht, qualitativ hochwertige Ergebnisse zu erzielen. Unser Modell begegnet diesen Herausforderungen, indem es explizite 3D-Repräsentationen effektiv mit selbstüberwachter Tiefen- und Posenabschätzungstechniken integriert, was zu wechselseitigen Verbesserungen sowohl bei der Posen-Genauigkeit als auch bei der 3D-Rekonstruktionsqualität führt. Darüber hinaus integrieren wir ein Matching-bewusstes Posenabschätzungssystem und ein Tiefenverfeinerungsmodul, um die geometrische Konsistenz über Ansichten hinweg zu verbessern, was genauere und stabilere 3D-Rekonstruktionen gewährleistet. Um die Leistung unserer Methode zu präsentieren, haben wir sie an umfangreichen realen Datensätzen wie RealEstate10K, ACID und DL3DV evaluiert. SelfSplat erzielt überlegene Ergebnisse gegenüber früheren State-of-the-Art-Methoden sowohl in Erscheinung als auch in geometrischer Qualität und zeigt auch starke Generalisierungsfähigkeiten über verschiedene Datensätze hinweg. Umfangreiche Ablationsstudien und Analysen bestätigen ebenfalls die Wirksamkeit unserer vorgeschlagenen Methoden. Der Code und die vortrainierten Modelle sind unter https://gynjn.github.io/selfsplat/ verfügbar.
Diffusionsmodelle haben beeindruckende Ergebnisse bei generativen Aufgaben wie der Text-zu-Bild- (T2I) und Text-zu-Video- (T2V) Synthese erzielt. Die präzise Textausrichtung bei der T2V-Generierung bleibt jedoch aufgrund der komplexen zeitlichen Abhängigkeiten über Frames hinweg eine Herausforderung. Bestehende auf Verstärkendem Lernen (RL) basierende Ansätze zur Verbesserung der Textausrichtung erfordern oft differenzierbare Belohnungsfunktionen oder sind auf begrenzte Hinweise beschränkt, was ihre Skalierbarkeit und Anwendbarkeit einschränkt. In diesem Papier schlagen wir Free^2Guide vor, ein neuartiges gradientenfreies Rahmenwerk zur Ausrichtung generierter Videos mit Texthinweisen, ohne zusätzliches Modelltraining zu benötigen. Durch die Nutzung von Prinzipien aus der Pfadintegralsteuerung approximiert Free^2Guide die Anleitung für Diffusionsmodelle mithilfe nicht differenzierbarer Belohnungsfunktionen, wodurch die Integration leistungsstarker Black-Box-Großer Bild-Sprach-Modelle (LVLMs) als Belohnungsmodell ermöglicht wird. Darüber hinaus unterstützt unser Rahmenwerk das flexible Zusammenführen mehrerer Belohnungsmodelle, einschließlich großangelegter bildbasierter Modelle, um die Ausrichtung synergistisch zu verbessern, ohne dabei erheblichen Rechenaufwand zu verursachen. Wir zeigen, dass Free^2Guide die Textausrichtung über verschiedene Dimensionen hinweg signifikant verbessert und die Gesamtqualität der generierten Videos steigert.
In einer Ära der Informationsüberlastung ist es zunehmend unpraktisch, den umfangreichen und stetig wachsenden Bestand an Dokumenten und wissenschaftlichen Arbeiten manuell zu annotieren. Die automatisierte Extraktion von Schlüsselbegriffen begegnet dieser Herausforderung, indem sie repräsentative Begriffe in Texten identifiziert. Die meisten bestehenden Methoden konzentrieren sich jedoch auf kurze Dokumente (bis zu 512 Token), was eine Lücke bei der Verarbeitung von Dokumenten mit langem Kontext hinterlässt. In diesem Artikel stellen wir LongKey vor, ein neuartiges Framework zur Extraktion von Schlüsselbegriffen aus umfangreichen Dokumenten, das ein auf einem Encoder basierendes Sprachmodell verwendet, um erweiterte Textfeinheiten zu erfassen. LongKey nutzt einen Max-Pooling-Embedder zur Verbesserung der Repräsentation von Schlüsselbegriffskandidaten. Validiert anhand der umfassenden LDKP-Datensätze und sechs verschiedenen, unveröffentlichten Datensätzen übertrifft LongKey kontinuierlich bestehende unüberwachte und auf Sprachmodellen basierende Methoden zur Schlüsselbegriffsextraktion. Unsere Ergebnisse zeigen die Vielseitigkeit und überlegene Leistung von LongKey auf und markieren einen Fortschritt in der Schlüsselbegriffsextraktion für unterschiedliche Textlängen und -bereiche.
Die jüngsten Fortschritte bei der Leistung großer Sprachmodelle (LLM) bei medizinischen Multiple-Choice-Fragen (MCQ) haben weltweit das Interesse von Gesundheitsdienstleistern und Patienten geweckt. Insbesondere in Ländern mit niedrigem und mittlerem Einkommen (LMICs), die mit akutem Ärztemangel und einem Mangel an Spezialisten konfrontiert sind, bieten LLMs einen potenziell skalierbaren Weg, um den Zugang zur Gesundheitsversorgung zu verbessern und die Kosten zu senken. Ihre Wirksamkeit in der Globalen Südhalbkugel, insbesondere auf dem afrikanischen Kontinent, muss jedoch noch nachgewiesen werden. In dieser Arbeit stellen wir AfriMed-QA vor, den ersten groß angelegten panafrikanischen englischsprachigen Multi-Spezialitäten-Medizin-Fragen-Antworten (QA)-Datensatz, bestehend aus 15.000 Fragen (offen und geschlossen) von über 60 medizinischen Fakultäten in 16 Ländern, die 32 medizinische Fachgebiete abdecken. Wir bewerten außerdem 30 LLMs entlang mehrerer Achsen, einschließlich Korrektheit und demografischer Voreingenommenheit. Unsere Ergebnisse zeigen signifikante Leistungsunterschiede zwischen den Fachgebieten und geografischen Regionen, wobei die Leistung bei MCQs deutlich hinter dem USMLE (MedQA) zurückbleibt. Wir stellen fest, dass biomedizinische LLMs im Vergleich zu allgemeinen Modellen unterdurchschnittlich abschneiden und kleinere, nutzerfreundliche LLMs Schwierigkeiten haben, eine Bestehensnote zu erreichen. Interessanterweise zeigen menschliche Bewertungen eine konsistente Verbraucherpräferenz für LLM-Antworten und -Erklärungen im Vergleich zu klinischen Antworten.