Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Strukturinformation ist entscheidend für das Verständnis der Semantik von bildreichen Texten wie Dokumenten, Tabellen und Diagrammen. Bestehende Multimodale Große Sprachmodelle (MLLMs) für die visuelle Dokumentverarbeitung verfügen über Texterkennungsfähigkeiten, aber es fehlen ihnen allgemeine Strukturverständnisfähigkeiten für textreiche Dokumentbilder. In dieser Arbeit betonen wir die Bedeutung von Strukturinformationen in der visuellen Dokumentverarbeitung und schlagen das Vereinheitlichte Strukturlernen vor, um die Leistung von MLLMs zu steigern. Unser Vereinheitlichtes Strukturlernen umfasst strukturbewusste Parsing-Aufgaben und mehrschichtige Textlokalisierungsaufgaben in 5 Bereichen: Dokument, Webseite, Tabelle, Diagramm und natürliche Bilder. Um Strukturinformationen besser zu codieren, entwerfen wir ein einfaches und effektives Vision-zu-Text-Modul H-Reducer, das nicht nur die Layoutinformationen beibehalten, sondern auch die Länge der visuellen Merkmale reduzieren kann, indem es horizontal benachbarte Patches durch Faltung fusioniert, was dem LLM ermöglicht, hochauflösende Bilder effizienter zu verstehen. Darüber hinaus, indem wir strukturbewusste Textsequenzen und mehrschichtige Text- und Begrenzungsrahmenpaare für öffentlich verfügbare textreiche Bilder konstruieren, erstellen wir einen umfassenden Trainingsdatensatz DocStruct4M zur Unterstützung des Strukturlernens. Schließlich erstellen wir einen kleinen, aber qualitativ hochwertigen Reasoning-Tuning-Datensatz DocReason25K, um die detaillierte Erklärungsfähigkeit im Dokumentenbereich auszulösen. Unser Modell DocOwl 1.5 erzielt eine Spitzenleistung auf 10 visuellen Dokumentverstehens-Benchmarks und verbessert die Spitzenleistung von MLLMs mit einem 7B LLM um mehr als 10 Punkte in 5 von 10 Benchmarks. Unsere Codes, Modelle und Datensätze sind öffentlich verfügbar unter https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Dieses Papier konzentriert sich auf die aufgabenneutrale Komprimierung von Anweisungen zur Verbesserung der Generalisierbarkeit und Effizienz. Angesichts der Redundanz in natürlicher Sprache komprimieren bestehende Ansätze Anweisungen, indem sie Token oder lexikalische Einheiten basierend auf ihrer Informationsentropie entfernen, die aus einem kausalen Sprachmodell wie LLaMa-7B gewonnen wird. Die Herausforderung besteht darin, dass die Informationsentropie möglicherweise kein optimales Kompressionsmaß ist: (i) es nutzt nur unidirektionale Kontexte und kann möglicherweise nicht alle für die Anweisungskomprimierung erforderlichen wesentlichen Informationen erfassen; (ii) es ist nicht auf das Ziel der Anweisungskomprimierung ausgerichtet. Um diese Probleme anzugehen, schlagen wir ein Verfahren zur Datenverdichtung vor, um Wissen aus einem LLM abzuleiten, um Anweisungen zu komprimieren, ohne wichtige Informationen zu verlieren, und führen gleichzeitig einen extraktiven Textkomprimierungsdatensatz ein. Wir formulieren die Anweisungskomprimierung als ein Token-Klassifizierungsproblem, um die Treue der komprimierten Anweisung zur Originalanweisung zu gewährleisten, und verwenden einen Transformer-Encoder als Basismodell, um alle wesentlichen Informationen für die Anweisungskomprimierung aus dem vollständigen bidirektionalen Kontext zu erfassen. Unser Ansatz führt zu geringerer Latenz, indem er das Kompressionsziel explizit mit kleineren Modellen wie XLM-RoBERTa-large und mBERT lernt. Wir evaluieren unsere Methode an sowohl in-domain als auch out-of-domain Datensätzen, einschließlich MeetingBank, LongBench, ZeroScrolls, GSM8K und BBH. Trotz seiner geringen Größe zeigt unser Modell signifikante Leistungssteigerungen gegenüber starken Baselines und demonstriert robuste Generalisierungsfähigkeiten über verschiedene LLMs hinweg. Darüber hinaus ist unser Modell 3x-6x schneller als bestehende Methoden zur Anweisungskomprimierung, während es die End-to-End-Latenz um das 1,6- bis 2,9-fache beschleunigt, bei Kompressionsverhältnissen von 2x-5x.
Die Umwandlung von unstrukturiertem Text in strukturierte und sinnvolle Formen, die nach nützlichen Kategorielabels organisiert sind, ist ein grundlegender Schritt beim Text Mining für nachgelagerte Analysen und Anwendungen. Die meisten bestehenden Methoden zur Erstellung von Label-Taxonomien und zum Aufbau von textbasierten Label-Klassifikatoren stützen sich jedoch weiterhin stark auf Fachwissen und manuelle Kuratierung, was den Prozess teuer und zeitaufwändig macht. Dies ist besonders herausfordernd, wenn der Labelraum unzureichend spezifiziert ist und groß angelegte Datenannotationen nicht verfügbar sind. In diesem Paper gehen wir diese Herausforderungen mit Large Language Models (LLMs) an, deren promptbasierte Schnittstelle die Induktion und Verwendung von groß angelegten Pseudolabels erleichtert. Wir schlagen TnT-LLM vor, ein Zwei-Phasen-Framework, das LLMs einsetzt, um den Prozess der automatischen Generierung und Zuweisung von Labels von Anfang bis Ende mit minimalem menschlichen Aufwand für jeden Anwendungsfall zu automatisieren. In der ersten Phase führen wir einen Zero-Shot-, mehrstufigen Denkansatz ein, der es LLMs ermöglicht, iterativ eine Label-Taxonomie zu erstellen und zu verfeinern. In der zweiten Phase werden LLMs als Datenlabeler verwendet, die Trainingsbeispiele liefern, damit leichtgewichtige überwachte Klassifikatoren zuverlässig erstellt, bereitgestellt und im großen Maßstab genutzt werden können. Wir wenden TnT-LLM auf die Analyse von Benutzerabsichten und dem konversationellen Bereich für Bing Copilot (ehemals Bing Chat) an, eine Chat-basierte Suchmaschine im Open Domain. Umfangreiche Experimente unter Verwendung sowohl menschlicher als auch automatischer Bewertungsmetriken zeigen, dass TnT-LLM genauere und relevantere Label-Taxonomien generiert im Vergleich zu State-of-the-Art-Baselines und ein günstiges Gleichgewicht zwischen Genauigkeit und Effizienz für die Klassifizierung im großen Maßstab erreicht. Wir teilen auch unsere praktischen Erfahrungen und Erkenntnisse zu den Herausforderungen und Chancen bei der Verwendung von LLMs für das Text Mining im großen Maßstab in realen Anwendungen.
Open-Source Large Language Models (LLMs) haben große Erfolge in verschiedenen NLP-Aufgaben erzielt, sind jedoch immer noch weit unterlegen im Vergleich zu API-basierten Modellen, wenn sie als Agenten agieren. Die Integration von Agentenfähigkeiten in allgemeine LLMs wird zu einem entscheidenden und dringenden Problem. Diese Arbeit liefert zunächst drei Schlüsselbeobachtungen: (1) Der aktuelle Agenten-Trainingskorpus ist mit sowohl dem Format des Folgens als auch dem Agenten-Argumentieren verflochten, was sich signifikant von der Verteilung seiner Vor-Trainingsdaten unterscheidet; (2) LLMs zeigen unterschiedliche Lerngeschwindigkeiten bei den für Agentenaufgaben erforderlichen Fähigkeiten; und (3) aktuelle Ansätze haben Nebenwirkungen, wenn sie die Agentenfähigkeiten durch die Einführung von Halluzinationen verbessern. Basierend auf den oben genannten Erkenntnissen schlagen wir Agent-FLAN vor, um Sprachmodelle effektiv für Agenten feinzustimmen. Durch eine sorgfältige Dekomposition und Neugestaltung des Trainingskorpus ermöglicht Agent-FLAN Llama2-7B, die bisher besten Arbeiten um 3,5\% in verschiedenen Agenten-Evaluierungsdatensätzen zu übertreffen. Mit umfassend konstruierten negativen Beispielen mildert Agent-FLAN die Halluzinationsprobleme erheblich auf Basis unseres etablierten Evaluierungsmaßstabs. Darüber hinaus verbessert es kontinuierlich die Agentenfähigkeit von LLMs beim Skalieren der Modellgrößen und steigert leicht die allgemeine Fähigkeit von LLMs. Der Code wird unter https://github.com/InternLM/Agent-FLAN verfügbar sein.
Wir präsentieren AnimateDiff-Lightning für die blitzschnelle Videogenerierung. Unser Modell verwendet progressives adversariales Diffusionsdestillat, um einen neuen Stand der Technik in der Videogenerierung mit wenigen Schritten zu erreichen. Wir diskutieren unsere Modifikationen, um es für die Videomodalität anzupassen. Darüber hinaus schlagen wir vor, gleichzeitig den Wahrscheinlichkeitsfluss mehrerer Basis-Diffusionsmodelle zu destillieren, was zu einem einzigen destillierten Bewegungsmodul mit breiterer Stilkompatibilität führt. Wir freuen uns, unser destilliertes AnimateDiff-Lightning-Modell für die Nutzung durch die Gemeinschaft freizugeben.
Während groß angelegte robotische Systeme in der Regel auf textuelle Anweisungen für Aufgaben angewiesen sind, erforscht diese Arbeit einen anderen Ansatz: Können Roboter die Aufgabe direkt aus der Beobachtung von Menschen ableiten? Dieser Wechsel erfordert die Fähigkeit des Roboters, menschliche Absichten zu entschlüsseln und in ausführbare Aktionen innerhalb seiner physischen Beschränkungen und Umgebung zu übersetzen. Wir stellen Vid2Robot vor, ein neuartiges End-to-End-Lernframework für Roboter, das auf Videos basiert. Anhand einer Video-Demonstration einer Manipulationsaufgabe und aktueller visueller Beobachtungen erzeugt Vid2Robot direkt Roboteraktionen. Dies wird durch ein vereinheitlichtes Repräsentationsmodell erreicht, das auf einem großen Datensatz von menschlichen Videos und Robotertrajektorien trainiert ist. Das Modell nutzt Kreuz-Aufmerksamkeitsmechanismen, um Video-Merkmale mit dem aktuellen Zustand des Roboters zu verschmelzen und geeignete Aktionen zu generieren, die die beobachtete Aufgabe nachahmen. Zur weiteren Verbesserung der Policy-Performance schlagen wir zusätzliche kontrastive Verluste vor, die die Ausrichtung zwischen menschlichen und Roboter-Video-Repräsentationen verbessern. Wir evaluieren Vid2Robot an realen Robotern und zeigen eine Leistungssteigerung von 20% im Vergleich zu anderen video-konditionierten Richtlinien bei Verwendung von Videos menschlicher Demonstrationen. Darüber hinaus zeigt unser Modell aufkommende Fähigkeiten, wie das erfolgreiche Übertragen beobachteter Bewegungen von einem Objekt auf ein anderes und die Komposition über lange Horizonte, wodurch sein Potenzial für Anwendungen in der realen Welt verdeutlicht wird. Projektwebsite: vid2robot.github.io
Vision-Sprach-Modelle (VLMs) erzielen zunehmend starke Leistungen bei multimodalen Aufgaben. Die Fähigkeiten zur Argumentation bleiben jedoch insbesondere bei kleineren VLMs begrenzt, während diejenigen großer Sprachmodelle (LLMs) zahlreiche Verbesserungen erfahren haben. Wir schlagen eine Technik vor, um Fähigkeiten von LLMs auf VLMs zu übertragen. Bei dem kürzlich eingeführten ChartQA erzielt unsere Methode Spitzenleistungen, wenn sie auf das PaLI3-5B VLM von chen2023pali3 angewendet wird, und ermöglicht auch eine wesentlich bessere Leistung bei PlotQA und FigureQA. Wir verbessern zunächst die Diagrammdarstellung, indem wir die Vortrainingsphase fortsetzen und eine verbesserte Version der Diagramm-zu-Tabellen-Übersetzungsaufgabe von liu2023deplot verwenden. Anschließend schlagen wir vor, einen 20-mal größeren Datensatz als den ursprünglichen Trainingsdatensatz zu erstellen. Um die allgemeinen Argumentationsfähigkeiten zu verbessern und numerische Operationen zu optimieren, synthetisieren wir Argumentationsspuren unter Verwendung der Tabellendarstellung von Diagrammen. Schließlich wird unser Modell mithilfe des Multitask-Verlusts, der von hsieh2023distilling eingeführt wurde, feinabgestimmt. Unsere Variante ChartPaLI-5B übertrifft sogar 10-mal größere Modelle wie PaLIX-55B, ohne ein vorgelagertes OCR-System zu verwenden, und hält die Inferenzzeit im Vergleich zum PaLI3-5B-Benchmark konstant. Wenn die Begründungen weiter mit einem einfachen Denkprogramm-Prompt von chen2023program verfeinert werden, übertrifft unser Modell die kürzlich eingeführten Gemini Ultra und GPT-4V.
Die Erstellung von 4D-Feldern der Gauss'schen Splatting aus Bildern oder Videos ist aufgrund ihrer unterbestimmten Natur eine anspruchsvolle Aufgabe. Während die Optimierung photometrische Referenzen aus den Eingabevideos ziehen kann oder durch generative Modelle reguliert werden kann, bleibt die direkte Überwachung von Gauss'schen Bewegungen weitgehend unerforscht. In diesem Artikel stellen wir ein neues Konzept vor, den Gauss'schen Fluss, der die Dynamik von 3D-Gauss'schen und Pixelgeschwindigkeiten zwischen aufeinanderfolgenden Frames verbindet. Der Gauss'sche Fluss kann effizient durch das Splatting von Gauss'schen Dynamiken in den Bildraum erhalten werden. Dieser differenzierbare Prozess ermöglicht eine direkte dynamische Überwachung von optischem Fluss. Unsere Methode profitiert erheblich von der Generierung von 4D-dynamischen Inhalten und der 4D-Neusynthese von Ansichten mit Gauss'scher Splatting, insbesondere für Inhalte mit reichhaltigen Bewegungen, die von bestehenden Methoden schwer zu handhaben sind. Das häufig auftretende Problem des Farbdrifts bei der 4D-Generierung wird ebenfalls durch verbesserte Gauss'sche Dynamiken gelöst. Überlegene visuelle Qualität in umfangreichen Experimenten zeigt die Wirksamkeit unserer Methode. Quantitative und qualitative Bewertungen zeigen, dass unsere Methode Spitzenleistungen bei beiden Aufgaben der 4D-Generierung und der 4D-Neusynthese von Ansichten erzielt. Projektseite: https://zerg-overmind.github.io/GaussianFlow.github.io/
Die Generierung hochwertiger 3D-Assets aus einem gegebenen Bild ist in verschiedenen Anwendungen wie AR/VR äußerst wünschenswert. Neueste Fortschritte in der 3D-Generierung aus Einzelbildern erforschen Feed-Forward-Modelle, die lernen, das 3D-Modell eines Objekts ohne Optimierung zu erschließen. Obwohl vielversprechende Ergebnisse bei der Generierung einzelner Objekte erzielt wurden, haben diese Methoden oft Schwierigkeiten, komplexe 3D-Assets zu modellieren, die inhärent mehrere Objekte enthalten. In dieser Arbeit präsentieren wir ComboVerse, ein 3D-Generierungsframework, das hochwertige 3D-Assets mit komplexen Kompositionen produziert, indem es lernt, mehrere Modelle zu kombinieren. 1) Zunächst führen wir eine eingehende Analyse dieser "Multi-Objekt-Lücke" aus sowohl Modell- als auch Datensicht durch. 2) Als Nächstes versuchen wir, mit rekonstruierten 3D-Modellen verschiedener Objekte deren Größen, Rotationswinkel und Positionen anzupassen, um ein 3D-Asset zu erstellen, das dem gegebenen Bild entspricht. 3) Um diesen Prozess zu automatisieren, wenden wir räumlich bewusstes Score-Distillation-Sampling (SSDS) aus vorab trainierten Diffusionsmodellen an, um die Positionierung der Objekte zu steuern. Unser vorgeschlagenes Framework betont die räumliche Ausrichtung von Objekten im Vergleich zum Standard-Score-Distillation-Sampling und erzielt so genauere Ergebnisse. Umfangreiche Experimente bestätigen, dass ComboVerse klare Verbesserungen gegenüber bestehenden Methoden bei der Generierung kompositorischer 3D-Assets erzielt.
In dieser Studie untersuchen wir die Generierung von hochauflösenden Bildern aus vorab trainierten Diffusionsmodellen und gehen auf bestehende Herausforderungen ein, wie etwa repetitive Muster und strukturelle Verzerrungen, die auftreten, wenn Modelle über ihre trainierten Auflösungen hinaus angewendet werden. Um dieses Problem anzugehen, stellen wir einen innovativen, trainingfreien Ansatz namens FouriScale aus der Perspektive der Frequenzbereichsanalyse vor. Wir ersetzen die originalen Faltungs-Schichten in den vorab trainierten Diffusionsmodellen, indem wir eine Dilatationstechnik zusammen mit einer Tiefpassoperation integrieren, mit dem Ziel, strukturelle Konsistenz und Skalenkonsistenz über verschiedene Auflösungen hinweg zu erreichen. Durch eine weitere Verbesserung mittels einer Padding-then-Crop-Strategie kann unsere Methode flexibel mit der Generierung von Text-zu-Bildern verschiedener Seitenverhältnisse umgehen. Indem wir uns an FouriScale orientieren, balanciert unsere Methode erfolgreich die strukturelle Integrität und die Treue der generierten Bilder aus und erreicht eine erstaunliche Kapazität für die Generierung von Bildern beliebiger Größe, hoher Auflösung und hoher Qualität. Mit ihrer Einfachheit und Kompatibilität kann unsere Methode wertvolle Einblicke für zukünftige Erkundungen in die Synthese von ultrahochauflösenden Bildern bieten. Der Code wird unter https://github.com/LeonHLJ/FouriScale veröffentlicht.
Die bemerkenswerte Wirksamkeit von Text-zu-Bild-Diffusionsmodellen hat umfangreiche Erkundungen zu ihrer potenziellen Anwendung in Videobereichen angeregt. Zero-Shot-Methoden zielen darauf ab, Bild-Diffusionsmodelle auf Videos zu erweitern, ohne dass ein Modelltraining erforderlich ist. Aktuelle Methoden konzentrieren sich hauptsächlich darauf, Inter-Frame-Korrespondenz in Aufmerksamkeitsmechanismen zu integrieren. Die weiche Einschränkung bei der Bestimmung, auf welche gültigen Merkmale zugegriffen werden soll, kann jedoch manchmal unzureichend sein und zu zeitlicher Inkonsistenz führen. In diesem Papier stellen wir FRESCO vor, eine Intra-Frame-Korrespondenz neben der Inter-Frame-Korrespondenz, um eine robustere räumlich-zeitliche Einschränkung herzustellen. Diese Verbesserung gewährleistet eine konsistentere Transformation semantisch ähnlicher Inhalte über Frames hinweg. Über bloße Aufmerksamkeitsführung hinaus beinhaltet unser Ansatz ein explizites Update von Merkmalen, um eine hohe räumlich-zeitliche Konsistenz mit dem Eingangsvideo zu erreichen und die visuelle Kohärenz der resultierenden übersetzten Videos signifikant zu verbessern. Umfangreiche Experimente zeigen die Wirksamkeit unseres vorgeschlagenen Rahmens bei der Erzeugung hochwertiger, kohärenter Videos und markieren eine bemerkenswerte Verbesserung gegenüber bestehenden Zero-Shot-Methoden.
In den letzten Jahren hat sich das 3D-Gaußsche Splatting als leistungsstarke Technik für die 3D-Rekonstruktion und -Generierung etabliert, bekannt für seine schnellen und qualitativ hochwertigen Rendering-Fähigkeiten. Um diese Mängel anzugehen, stellt dieser Artikel ein neuartiges, auf Diffusion basierendes Framework, GVGEN, vor, das darauf ausgelegt ist, 3D-Gaußsche Darstellungen effizient aus Texteingaben zu generieren. Wir schlagen zwei innovative Techniken vor: (1) Strukturierte Volumetrische Darstellung. Wir ordnen zunächst ungeordnete 3D-Gaußsche Punkte als strukturierte Form GaussianVolume an. Diese Transformation ermöglicht die Erfassung von komplexen Texturdetails innerhalb eines Volumens, das aus einer festen Anzahl von Gaußschen besteht. Um die Darstellung dieser Details besser zu optimieren, schlagen wir eine einzigartige Beschneidungs- und Verdichtungsmethode namens Candidate Pool Strategy vor, die die Detailtreue durch selektive Optimierung verbessert. (2) Grob-zu-fein Generierungspipeline. Um die Generierung von GaussianVolume zu vereinfachen und dem Modell zu ermöglichen, Instanzen mit detaillierter 3D-Geometrie zu generieren, schlagen wir eine grob-zu-fein Pipeline vor. Sie konstruiert zunächst eine grundlegende geometrische Struktur, gefolgt von der Vorhersage vollständiger Gaußscher Attribute. Unser Framework, GVGEN, zeigt eine überlegene Leistung in qualitativen und quantitativen Bewertungen im Vergleich zu bestehenden 3D-Generierungsmethoden. Gleichzeitig behält es eine schnelle Generierungsgeschwindigkeit (ca. 7 Sekunden) bei und schafft effektiv einen Ausgleich zwischen Qualität und Effizienz.
Die Texturierung von 3D-Menschen mit semantischen UV-Maps bleibt eine Herausforderung aufgrund der Schwierigkeit, vernünftig entfaltete UVs zu erhalten. Trotz der jüngsten Fortschritte bei der Text-zu-3D-Überwachung von Multi-View-Renderings mithilfe großer Text-zu-Bild-Modelle (T2I) bestehen weiterhin Probleme hinsichtlich der Generierungsgeschwindigkeit, der Textkonsistenz und der Texturqualität, was zu Datenknappheit bei bestehenden Datensätzen führt. Wir stellen TexDreamer vor, das erste Zero-Shot multimodale hochauflösende 3D-Menschentextur-Generierungsmodell. Durch die Nutzung einer effizienten Texturanpassungsfeinabstimmungsstrategie passen wir ein großes T2I-Modell an eine semantische UV-Struktur an, wobei wir seine ursprüngliche Verallgemeinerungsfähigkeit bewahren. Mit Hilfe eines neuartigen Feature-Übersetzermoduls ist das trainierte Modell in der Lage, hochauflösende 3D-Menschentexturen aus Text oder Bildern innerhalb von Sekunden zu generieren. Darüber hinaus führen wir ArTicuLated humAn textureS (ATLAS) ein, den größten hochauflösenden (1024 x 1024) 3D-Menschentextur-Datensatz, der 50.000 hochauflösende Texturen mit Textbeschreibungen enthält.