Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Entwicklungen bei großen multimodalen Modellen (LMMs), insbesondere GPT-4V(ision) und Gemini, erweitern die Fähigkeitsgrenzen multimodaler Modelle schnell über traditionelle Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung hinaus. In dieser Arbeit untersuchen wir das Potenzial von LMMs wie GPT-4V als allgemeiner Web-Agent, der natürliche Sprachanweisungen befolgen kann, um Aufgaben auf beliebigen Websites zu erledigen. Wir stellen SEEACT vor, einen allgemeinen Web-Agenten, der die Leistungsfähigkeit von LMMs für integriertes visuelles Verständnis und Handeln im Web nutzt. Wir evaluieren auf dem kürzlich veröffentlichten MIND2WEB-Benchmark. Neben der standardmäßigen Offline-Evaluierung auf zwischengespeicherten Websites ermöglichen wir eine neue Online-Evaluierungsumgebung durch die Entwicklung eines Tools, das den Betrieb von Web-Agenten auf live-Websites erlaubt. Wir zeigen, dass GPT-4V ein großes Potenzial für Web-Agenten besitzt – es kann 50 % der Aufgaben auf live-Websites erfolgreich abschließen, wenn wir seine textuellen Pläne manuell in Aktionen auf den Websites verankern. Dies übertrifft textbasierte LLMs wie GPT-4 oder kleinere Modelle (FLAN-T5 und BLIP-2), die speziell für Web-Agenten feinabgestimmt wurden, deutlich. Die Verankerung bleibt jedoch eine große Herausforderung. Bestehende LMM-Verankerungsstrategien wie Set-of-Mark-Prompting erweisen sich für Web-Agenten als unwirksam, und die beste Verankerungsstrategie, die wir in dieser Arbeit entwickeln, nutzt sowohl den HTML-Text als auch die visuellen Elemente. Dennoch besteht eine erhebliche Lücke zur optimalen Verankerung (Oracle Grounding), was viel Raum für weitere Verbesserungen lässt.
Die meisten bestehenden Video-Diffusionsmodelle (VDMs) beschränken sich auf reine Textbedingungen. Dadurch mangelt es ihnen in der Regel an Kontrolle über das visuelle Erscheinungsbild und die geometrische Struktur der generierten Videos. Diese Arbeit stellt Moonshot vor, ein neues Videogenerierungsmodell, das gleichzeitig auf multimodale Eingaben von Bild und Text konditioniert. Das Modell basiert auf einem Kernmodul, dem sogenannten multimodalen Video-Block (MVB), das aus konventionellen raumzeitlichen Schichten zur Darstellung von Videomerkmalen und einer entkoppelten Cross-Attention-Schicht besteht, um Bild- und Texteingaben für die Erscheinungsbedingung zu verarbeiten. Darüber hinaus haben wir die Modellarchitektur sorgfältig so gestaltet, dass sie optional mit vortrainierten Image-ControlNet-Modulen für geometrische visuelle Bedingungen integriert werden kann, ohne wie bei früheren Methoden zusätzlichen Trainingsaufwand zu benötigen. Experimente zeigen, dass Moonshot durch vielseitige multimodale Konditionierungsmechanismen eine signifikante Verbesserung der visuellen Qualität und zeitlichen Konsistenz im Vergleich zu bestehenden Modellen aufweist. Darüber hinaus kann das Modell leicht für eine Vielzahl von generativen Anwendungen wie personalisierte Videogenerierung, Bildanimation und Videobearbeitung umfunktioniert werden, was sein Potenzial als grundlegende Architektur für kontrollierbare Videogenerierung offenbart. Die Modelle werden unter https://github.com/salesforce/LAVIS öffentlich zugänglich gemacht.
Wir stellen ein differenzierbares Modell vor, das Grenzen – einschließlich Konturen, Ecken und Verzweigungen – explizit modelliert, indem es einen neuen Mechanismus verwendet, den wir als Boundary Attention bezeichnen. Wir zeigen, dass unser Modell präzise Ergebnisse liefert, selbst wenn das Grenzsignal sehr schwach ist oder von Rauschen überlagert wird. Im Vergleich zu früheren klassischen Methoden zur Erkennung schwacher Grenzen bietet unser Modell die Vorteile der Differenzierbarkeit, der Skalierbarkeit auf größere Bilder und der automatischen Anpassung an ein angemessenes Maß an geometrischen Details in jedem Teil eines Bildes. Im Vergleich zu früheren Deep-Learning-Methoden zur Grenzdetektion durch End-to-End-Training bietet es die Vorteile der Subpixelgenauigkeit, einer höheren Robustheit gegenüber Rauschen und der Fähigkeit, jedes Bild in seiner nativen Auflösung und seinem Seitenverhältnis zu verarbeiten.
Wir präsentieren En3D, ein verbessertes generatives Schema zur Gestaltung hochwertiger 3D-Menschenavatare. Im Gegensatz zu früheren Arbeiten, die sich auf knappe 3D-Datensätze oder begrenzte 2D-Sammlungen mit unausgewogenen Blickwinkeln und ungenauen Posepriors stützen, zielt unser Ansatz darauf ab, ein Zero-Shot-3D-generatives Schema zu entwickeln, das visuell realistische, geometrisch präzise und inhaltlich vielfältige 3D-Menschen erzeugen kann, ohne auf bestehende 3D- oder 2D-Assets zurückzugreifen. Um diese Herausforderung zu bewältigen, führen wir einen sorgfältig gestalteten Workflow ein, der eine präzise physikalische Modellierung implementiert, um das verbesserte 3D-generative Modell aus synthetischen 2D-Daten zu lernen. Während der Inferenz integrieren wir Optimierungsmodule, um die Lücke zwischen realistischen Erscheinungen und groben 3D-Formen zu überbrücken. Konkret besteht En3D aus drei Modulen: einem 3D-Generator, der generalisierbare 3D-Menschen mit realistischer Erscheinung aus synthetisierten, ausgewogenen, vielfältigen und strukturierten Menschenbildern genau modelliert; einem Geometrie-Skulpteur, der die Formqualität durch Multi-View-Normalen-Constraints für detaillierte menschliche Anatomie verbessert; und einem Texturierungsmodul, das explizite Texturkarten mit hoher Detailtreue und Bearbeitbarkeit durch semantische UV-Partitionierung und einen differenzierbaren Rasterizer entwirrt. Experimentelle Ergebnisse zeigen, dass unser Ansatz frühere Arbeiten in Bezug auf Bildqualität, geometrische Genauigkeit und inhaltliche Vielfalt deutlich übertrifft. Wir demonstrieren auch die Anwendbarkeit unserer generierten Avatare für Animation und Bearbeitung sowie die Skalierbarkeit unseres Ansatzes für die inhalts- und stilfreie Anpassung.
Was bringt es großen Sprachmodellen (LLMs) bei, Beziehungen zwischen Zeichenketten zu modellieren, wenn es um die visuelle Welt geht? Wir evaluieren systematisch die Fähigkeiten von LLMs, eine Vielzahl visueller Konzepte mit zunehmender Komplexität zu generieren und zu erkennen, und zeigen dann, wie ein vorläufiges System zum Erlernen visueller Repräsentationen mithilfe von Textmodellen trainiert werden kann. Da Sprachmodelle nicht in der Lage sind, visuelle Informationen als Pixel aufzunehmen oder auszugeben, verwenden wir in unserer Studie Code, um Bilder darzustellen. Obwohl die von LLMs generierten Bilder nicht wie natürliche Bilder aussehen, deuten die Ergebnisse zur Bildgenerierung und die Fähigkeit der Modelle, diese generierten Bilder zu korrigieren, darauf hin, dass die präzise Modellierung von Zeichenketten Sprachmodellen zahlreiche Aspekte der visuellen Welt vermitteln kann. Darüber hinaus zeigen Experimente zum selbstüberwachten Erlernen visueller Repräsentationen, bei denen Bilder mithilfe von Textmodellen generiert werden, das Potenzial auf, Vision-Modelle zu trainieren, die in der Lage sind, semantische Bewertungen natürlicher Bilder allein mithilfe von LLMs vorzunehmen.
Da instruktionsfeinabgestimmte große Sprachmodelle (LLMs) weltweit Verbreitung finden, wird ihre Fähigkeit, Anweisungen in mehreren Sprachen zu befolgen, zunehmend entscheidend. Ein vielversprechender Ansatz ist der Transfer über Sprachen hinweg, bei dem ein Modell spezifische Funktionalitäten in einer Sprache durch Feinabstimmung in einer anderen Sprache erwirbt. In dieser Arbeit untersuchen wir, wie sich Mehrsprachigkeit während der Instruktionsfeinabstimmung eines mehrsprachigen LLMs auf die Befolgung von Anweisungen über verschiedene Sprachen hinweg auswirkt. Wir zeigen zunächst, dass viele Sprachen einige Fähigkeiten zur Befolgung von Anweisungen auf andere Sprachen übertragen, selbst bei monolingualer Feinabstimmung. Darüber hinaus stellen wir fest, dass bereits 40 mehrsprachige Beispiele in einem englischen Feinabstimmungsdatensatz die mehrsprachige Befolgung von Anweisungen erheblich verbessern, sowohl in während der Feinabstimmung gesehenen als auch in unbekannten Sprachen. Im Allgemeinen beobachten wir, dass Modelle, die auf mehrsprachigen Mischungen feinabgestimmt wurden, in mehreren Sprachen eine vergleichbare oder überlegene Leistung im Vergleich zu monolingual feinabgestimmten Modellen zeigen, obwohl sie mit 10x weniger Beispielen in diesen Sprachen trainiert wurden. Schließlich stellen wir fest, dass die Erhöhung der Anzahl der Sprachen im Instruktionsfeinabstimmungsdatensatz von 1 auf nur 2, 3 oder 4 die sprachübergreifende Generalisierung erhöht. Unsere Ergebnisse deuten darauf hin, dass der Aufbau massiv mehrsprachiger, instruktionsfeinabgestimmter Modelle mit nur einer sehr kleinen Menge mehrsprachiger Instruktions-Antwort-Paare möglich ist.
Trotz der bemerkenswerten Leistung der Score-Distillation bei der Text-zu-3D-Generierung leiden solche Techniken bekanntermaßen unter Inkonsistenzen in der Ansicht, auch bekannt als „Janus“-Artefakt, bei dem die generierten Objekte jede Ansicht mit mehreren Vorderseiten vortäuschen. Obwohl empirisch wirksame Methoden dieses Problem durch Score-Debiasing oder Prompt-Engineering angegangen sind, bleibt eine strengere Perspektive zur Erklärung und Bewältigung dieses Problems schwer fassbar. In diesem Artikel zeigen wir, dass die bestehenden Score-Distillation-basierten Text-zu-3D-Generierungsframeworks auf die Maximierung der Wahrscheinlichkeit für jede Ansicht unabhängig voneinander reduziert werden und somit unter dem Problem des Modus-Zusammenbruchs leiden, was sich in der Praxis als Janus-Artefakt manifestiert. Um den Modus-Zusammenbruch zu kontrollieren, verbessern wir die Score-Distillation, indem wir einen Entropie-Term im entsprechenden Variationsziel neu etablieren, der auf die Verteilung der gerenderten Bilder angewendet wird. Die Maximierung der Entropie fördert die Vielfalt zwischen verschiedenen Ansichten in generierten 3D-Assets und mildert somit das Janus-Problem. Basierend auf diesem neuen Ziel leiten wir eine neue Aktualisierungsregel für die 3D-Score-Distillation ab, die wir als Entropische Score-Distillation (ESD) bezeichnen. Wir zeigen theoretisch, dass ESD vereinfacht und implementiert werden kann, indem lediglich der Trick der klassifikatorfreien Führung auf die variationsbasierte Score-Distillation angewendet wird. Obwohl peinlich einfach, demonstrieren unsere umfangreichen Experimente erfolgreich, dass ESD eine wirksame Behandlung für Janus-Artefakte in der Score-Distillation sein kann.
Dieses Papier stellt die WordArt Designer API vor, ein neuartiges Framework für die benutzergetriebene Synthese künstlerischer Typografie unter Verwendung von Large Language Models (LLMs) auf ModelScope. Wir adressieren die Herausforderung, künstlerische Typografie für Nicht-Profis zu vereinfachen, indem wir eine dynamische, adaptive und recheneffiziente Alternative zu traditionellen starren Vorlagen bieten. Unser Ansatz nutzt die Leistungsfähigkeit von LLMs, um Benutzereingaben zu verstehen und zu interpretieren, wodurch ein intuitiverer Designprozess ermöglicht wird. Anhand verschiedener Fallstudien zeigen wir, wie Benutzer ihre ästhetischen Präferenzen und funktionalen Anforderungen artikulieren können, die das System dann in einzigartige und kreative typografische Designs umsetzt. Unsere Auswertungen zeigen signifikante Verbesserungen in Bezug auf Benutzerzufriedenheit, Designflexibilität und kreativen Ausdruck im Vergleich zu bestehenden Systemen. Die WordArt Designer API demokratisiert nicht nur die Kunst der Typografie, sondern eröffnet auch neue Möglichkeiten für personalisierte digitale Kommunikation und Gestaltung.