Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In jüngster Zeit haben Fortschritte bei Modellen für die Verbindung von Vision und Sprache die Leistung gesteigert, indem die Länge der visuellen Tokens erhöht wurde, sodass sie deutlich länger sind als Texttokens und die Rechenkosten erheblich steigen. Wir beobachten jedoch, dass die visuellen Tokens, die von beliebten Vision-Encodern wie CLIP und SigLIP generiert werden, erhebliche Redundanzen enthalten. Um dem entgegenzuwirken, stellen wir VisionZip vor, eine einfache, aber effektive Methode, die eine Reihe von informativen Tokens für die Eingabe in das Sprachmodell auswählt, um die Redundanz der visuellen Tokens zu reduzieren und die Effizienz zu verbessern, während die Modellleistung beibehalten wird. Das vorgeschlagene VisionZip kann weitreichend auf Bild- und Videoverständnisaufgaben angewendet werden und eignet sich gut für Mehrfachdialoge in realen Szenarien, in denen frühere Methoden dazu neigen, schlechter abzuschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die bisherige State-of-the-Art-Methode um mindestens 5% Leistungsgewinn in nahezu allen Einstellungen übertrifft. Darüber hinaus verbessert unsere Methode signifikant die Modellinferenzgeschwindigkeit, indem die Vorabfüllzeit um das Achtfache verkürzt wird und es dem LLaVA-Next 13B-Modell ermöglicht wird, schneller zu inferieren als das LLaVA-Next 7B-Modell bei gleichzeitig besseren Ergebnissen. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und ermutigen die Gemeinschaft, sich darauf zu konzentrieren, bessere visuelle Merkmale zu extrahieren, anstatt einfach nur die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.
Wir stellen eine innovative 3D-Generierungsmethode für vielseitige und hochwertige 3D-Asset-Erstellung vor. Der Eckpfeiler ist eine vereinheitlichte Strukturierte LATente (SLAT)-Darstellung, die eine Dekodierung in verschiedene Ausgabeformate wie Strahlungsfelder, 3D-Gaußsche Verteilungen und Meshes ermöglicht. Dies wird durch die Integration eines spärlich bevölkerten 3D-Rasters mit dichten multiview visuellen Merkmalen erreicht, die aus einem leistungsstarken Vision-Grundlagenmodell extrahiert werden und sowohl strukturelle (Geometrie) als auch texturale (Erscheinung) Informationen umfassend erfassen, während die Flexibilität während der Dekodierung erhalten bleibt. Wir verwenden für SLAT maßgeschneiderte rektifizierte Fluss-Transformer als unsere 3D-Generierungsmodelle und trainieren Modelle mit bis zu 2 Milliarden Parametern auf einem großen 3D-Asset-Datensatz von 500.000 verschiedenen Objekten. Unser Modell erzeugt hochwertige Ergebnisse mit Text- oder Bildbedingungen und übertrifft signifikant bestehende Methoden, einschließlich jüngster Ansätze in ähnlichem Maßstab. Wir präsentieren flexible Auswahlmöglichkeiten für das Ausgabeformat und lokale 3D-Bearbeitungsfunktionen, die von früheren Modellen nicht angeboten wurden. Code, Modell und Daten werden veröffentlicht.
Graphische Benutzeroberflächen (GUIs) sind entscheidend für die Mensch-Computer-Interaktion, aber die Automatisierung von GUI-Aufgaben bleibt aufgrund der Komplexität und Variabilität visueller Umgebungen herausfordernd. Bestehende Ansätze stützen sich oft auf textuelle Darstellungen von GUIs, die Einschränkungen bei der Verallgemeinerung, Effizienz und Skalierbarkeit mit sich bringen. In diesem Artikel stellen wir Aguvis vor, ein vereinheitlichtes, rein auf Vision basierendes Framework für autonome GUI-Agenten, das auf verschiedenen Plattformen funktioniert. Unser Ansatz nutzt bildbasierte Beobachtungen, verankert Anweisungen in natürlicher Sprache an visuelle Elemente und verwendet einen konsistenten Aktionsraum, um eine plattformübergreifende Verallgemeinerung sicherzustellen. Um die Einschränkungen früherer Arbeiten zu bewältigen, integrieren wir explizite Planung und Schlussfolgerung in das Modell, um seine Fähigkeit zur autonomen Navigation und Interaktion mit komplexen digitalen Umgebungen zu verbessern. Wir erstellen einen umfangreichen Datensatz von GUI-Agenten-Trajektorien, der multimodales Denken und Verankern einbezieht, und verwenden einen zweistufigen Schulungsprozess, der sich zunächst auf die allgemeine GUI-Verankerung konzentriert, gefolgt von Planung und Schlussfolgerung. Durch umfassende Experimente zeigen wir, dass Aguvis frühere State-of-the-Art-Methoden sowohl in Offline- als auch in Echtzeit-Online-Szenarien übertrifft und als erster vollständig autonomer, rein visueller GUI-Agent bekanntermaßen Aufgaben eigenständig ausführen kann, ohne mit externen Closed-Source-Modellen zusammenarbeiten zu müssen. Wir haben alle Datensätze, Modelle und Schulungsanleitungen als Open Source veröffentlicht, um zukünftige Forschung zu unterstützen unter https://aguvis-project.github.io/.
Wir präsentieren Florence-VL, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs) mit angereicherten visuellen Repräsentationen, die von Florence-2, einem generativen Grundlagenmodell für Vision, erzeugt werden. Im Gegensatz zum weit verbreiteten CLIP-artigen Vision-Transformer, der durch kontrastives Lernen trainiert wird, kann Florence-2 verschiedene Ebenen und Aspekte visueller Merkmale erfassen, die vielseitiger für die Anpassung an vielfältige nachgelagerte Aufgaben sind. Wir schlagen eine neuartige Merkmalsverschmelzungsarchitektur und ein innovatives Schulungsrezept vor, das die visuellen Merkmale von Florence-2 effektiv in vorab trainierte LLMs wie Phi 3.5 und LLama 3 integriert. Insbesondere schlagen wir "Tiefen-Breiten-Verschmelzung (DBFusion)" vor, um die visuellen Merkmale zu verschmelzen, die aus verschiedenen Tiefen und unter mehreren Aufforderungen extrahiert wurden. Unser Modelltraining besteht aus dem End-to-End-Vortraining des gesamten Modells, gefolgt von der Feinabstimmung der Projektionsschicht und des LLMs, basierend auf einem sorgfältig konzipierten Rezept verschiedener Open-Source-Datensätze, die hochwertige Bildunterschriften und Anleitung-Abstimmungspaare enthalten. Unsere quantitative Analyse und Visualisierung der visuellen Merkmale von Florence-VL zeigen ihre Vorteile gegenüber beliebten Vision-Encodern bei der Vision-Sprach-Abstimmung, bei der die angereicherte Tiefe und Breite wichtige Rollen spielen. Florence-VL erzielt signifikante Verbesserungen gegenüber bestehenden State-of-the-Art MLLMs in verschiedenen multimodalen und visionzentrierten Benchmarks, die allgemeine VQA, Wahrnehmung, Halluzination, OCR, Diagramme, wissensintensive Verständnis usw. abdecken. Um zukünftige Forschung zu erleichtern, sind unsere Modelle und das vollständige Schulungsrezept Open Source verfügbar. https://github.com/JiuhaiChen/Florence-VL
Visuelle Sprachmodelle (VLMs) haben in den letzten Jahren signifikante Fortschritte in Bezug auf Genauigkeit gemacht. Ihre Effizienz hingegen wurde deutlich weniger beachtet. Dieses Paper stellt NVILA vor, eine Familie von offenen VLMs, die darauf ausgelegt sind, sowohl Effizienz als auch Genauigkeit zu optimieren. Aufbauend auf VILA verbessern wir dessen Modellarchitektur, indem wir zunächst die räumlichen und zeitlichen Auflösungen erhöhen und dann visuelle Tokens komprimieren. Dieser "Skalieren-und-Komprimieren"-Ansatz ermöglicht es NVILA, hochauflösende Bilder und lange Videos effizient zu verarbeiten. Wir führen auch eine systematische Untersuchung durch, um die Effizienz von NVILA während seines gesamten Lebenszyklus, von Training und Feinabstimmung bis hin zur Bereitstellung, zu verbessern. NVILA erreicht oder übertrifft die Genauigkeit vieler führender offener und proprietärer VLMs in einer Vielzahl von Bild- und Video-Benchmarks. Gleichzeitig reduziert es die Trainingskosten um das 4,5-fache, den Speicherverbrauch bei der Feinabstimmung um das 3,4-fache, die Latenz beim Vorabfüllen um das 1,6- bis 2,2-fache und die Decodierungs-Latenz um das 1,2- bis 2,8-fache. Wir werden in Kürze unseren Code und unsere Modelle zur Verfügung stellen, um die Reproduzierbarkeit zu erleichtern.
Angesichts des zunehmenden Einsatzes synthetischer Daten im Sprachmodell (LM)-Nachtraining ist die Fähigkeit eines LM, hochwertige Daten zu generieren, fast genauso entscheidend wie seine Fähigkeit, Probleme direkt zu lösen. Während frühere Arbeiten sich darauf konzentrierten, effektive Methoden zur Datengenerierung zu entwickeln, fehlt es an einer systematischen Vergleich von verschiedenen LMs als Datengeneratoren in einem einheitlichen Rahmen. Um diese Lücke zu schließen, schlagen wir AgoraBench vor, einen Benchmark, der standardisierte Einstellungen und Metriken bereitstellt, um die Datengenerierungsfähigkeiten von LMs zu bewerten. Durch die Synthese von 1,26 Millionen Trainingsinstanzen unter Verwendung von 6 LMs und dem Training von 99 Schülermodellen decken wir wichtige Erkenntnisse über die Datengenerierungsfähigkeiten von LMs auf. Zunächst beobachten wir, dass LMs unterschiedliche Stärken aufweisen. Beispielsweise zeichnet sich GPT-4o durch die Generierung neuer Probleme aus, während Claude-3.5-Sonnet besser darin ist, bestehende zu verbessern. Darüber hinaus zeigt unsere Analyse, dass die Datengenerierungsfähigkeit eines LMs nicht unbedingt mit seiner Problemlösungsfähigkeit korreliert. Stattdessen dienen mehrere intrinsische Merkmale der Datenqualität - einschließlich Antwortqualität, Perplexität und Schwierigkeit der Anweisungen - gemeinsam als bessere Indikatoren. Schließlich zeigen wir, dass strategische Entscheidungen im Ausgabeformat und eine kostenbewusste Modellauswahl die Effektivität der Datengenerierung erheblich beeinflussen.
Die automatische Erkennung und Verhinderung von Open-Set-Fehlern sind entscheidend in geschlossenen Regelkreis-Robotersystemen. Aktuelle Studien haben oft Schwierigkeiten, unerwartete Fehler reaktiv nach ihrem Auftreten zu identifizieren und vorhersehbare Fehler proaktiv zu verhindern. Zu diesem Zweck schlagen wir Code-als-Monitor (CaM) vor, ein neuartiges Paradigma, das das Vision-Sprach-Modell (VLM) zur gleichzeitigen offenen reaktiven und proaktiven Fehlererkennung nutzt. Der Kern unserer Methode besteht darin, beide Aufgaben als einheitliches Set von räumlich-zeitlichen Constraint Satisfaction Problems zu formulieren und VLM-generierten Code zur Echtzeitüberwachung zu verwenden. Zur Verbesserung der Genauigkeit und Effizienz der Überwachung führen wir weiterhin Constraint-Elemente ein, die Constraint-bezogene Entitäten oder deren Teile in kompakte geometrische Elemente abstrahieren. Dieser Ansatz bietet eine größere Allgemeingültigkeit, vereinfacht das Tracking und erleichtert die Constraint-bewusste visuelle Programmierung, indem diese Elemente als visuelle Hinweise genutzt werden. Experimente zeigen, dass CaM eine um 28,7% höhere Erfolgsrate erzielt und die Ausführungszeit um 31,8% unter starken Störungen im Vergleich zu Baselines in drei Simulatoren und einer realen Umgebung reduziert. Darüber hinaus kann CaM mit Open-Loop-Regelungsrichtlinien integriert werden, um geschlossene Regelkreissysteme zu bilden, die Langzeitaufgaben in überfüllten Szenen mit dynamischen Umgebungen ermöglichen.
Diffusionsmodelle zeichnen sich durch die Generierung hochwertiger Bilder aus. Allerdings haben aktuelle Diffusionsmodelle Schwierigkeiten, zuverlässige Bilder ohne Anleitungsmethoden wie den leitlinienfreien Leitfaden (CFG) zu erzeugen. Sind Leitlinienmethoden wirklich notwendig? Durch die Beobachtung, dass Rauschen, das durch Diffusionsinversion erhalten wird, hochwertige Bilder ohne Anleitung rekonstruieren kann, konzentrieren wir uns auf das anfängliche Rauschen des Entrauschungspipelines. Durch die Zuordnung von Gauß'schem Rauschen zu "leitlinienfreiem Rauschen" decken wir auf, dass kleine, niedrigmagnitudige, niederfrequente Komponenten den Entrauschungsprozess signifikant verbessern, was die Notwendigkeit von Leitlinien beseitigt und somit sowohl die Inferenzdurchsatz als auch den Speicher verbessert. Aufbauend darauf schlagen wir \ours vor, eine neuartige Methode, die Leitlinienmethoden durch eine einzige Verfeinerung des anfänglichen Rauschens ersetzt. Dieses verfeinerte Rauschen ermöglicht die Generierung hochwertiger Bilder ohne Leitlinien innerhalb derselben Diffusionspipeline. Unser Rauschverfeinerungsmodell nutzt effizientes Lernen im Rauschraum, um eine schnelle Konvergenz und starke Leistung mit nur 50.000 Text-Bild-Paaren zu erreichen. Wir validieren seine Wirksamkeit anhand verschiedener Metriken und analysieren, wie verfeinertes Rauschen die Notwendigkeit von Leitlinien beseitigen kann. Besuchen Sie unsere Projektseite: https://cvlab-kaist.github.io/NoiseRefine/.
Bestehende Methoden zur Mehrblickbildgenerierung führen oft invasive Änderungen an vortrainierten Text-zu-Bild (T2I) Modellen durch und erfordern eine vollständige Feinabstimmung, was zu (1) hohen Rechenkosten führt, insbesondere bei großen Basismodellen und hochauflösenden Bildern, und (2) zu einer Verschlechterung der Bildqualität aufgrund von Optimierungsschwierigkeiten und einem Mangel an hochwertigen 3D-Daten. In diesem Paper schlagen wir die erste Adapter-basierte Lösung für die Mehrblickbildgenerierung vor und stellen MV-Adapter vor, einen vielseitigen Plug-and-Play-Adapter, der T2I-Modelle und deren Derivate verbessert, ohne die ursprüngliche Netzwerkstruktur oder Merkmalsraum zu verändern. Durch die Aktualisierung weniger Parameter ermöglicht MV-Adapter ein effizientes Training und bewahrt das in den vortrainierten Modellen eingebettete Vorwissen, wodurch Überanpassungsrisiken gemindert werden. Um das 3D-geometrische Wissen effizient innerhalb des Adapters zu modellieren, führen wir innovative Designs ein, die duplizierte Self-Attention-Schichten und eine parallele Aufmerksamkeitsarchitektur umfassen, was es dem Adapter ermöglicht, die leistungsstarken Vorkenntnisse der vortrainierten Modelle zur Modellierung des neuen 3D-Wissens zu erben. Darüber hinaus präsentieren wir einen vereinheitlichten Bedingungsencoder, der Kameraparameter und geometrische Informationen nahtlos integriert und Anwendungen wie text- und bildbasierte 3D-Generierung und Texturierung erleichtert. MV-Adapter erreicht eine Mehrblickgenerierung mit 768 Auflösung auf Stable Diffusion XL (SDXL) und zeigt Anpassungsfähigkeit und Vielseitigkeit. Es kann auch auf beliebige Blickwinkelgenerierung erweitert werden, was breitere Anwendungen ermöglicht. Wir zeigen, dass MV-Adapter einen neuen Qualitätsstandard für die Mehrblickbildgenerierung setzt und aufgrund seiner Effizienz, Anpassungsfähigkeit und Vielseitigkeit neue Möglichkeiten eröffnet.
Die jüngsten Fortschritte in der generativen Bildgebung von Kleidungsstücken aus Text- und Bildanweisungen basierend auf Diffusionsmodellen sind beeindruckend. Allerdings fehlt es den bestehenden Methoden an Unterstützung für verschiedene Kombinationen von Kleidung und sie haben Schwierigkeiten, die Details der Kleidungsstücke zu bewahren, während sie der Textanweisungen treu bleiben, was ihre Leistungsfähigkeit in verschiedenen Szenarien einschränkt. In diesem Artikel konzentrieren wir uns auf eine neue Aufgabe, nämlich das Multi-Kleidungsstück-Virtual-Dressing, und schlagen eine neue Methode namens AnyDressing zur Anpassung von Charakteren vor, die auf beliebigen Kombinationen von Kleidungsstücken und personalisierten Textanweisungen basiert. AnyDressing besteht aus zwei Hauptnetzwerken namens GarmentsNet und DressingNet, die jeweils darauf spezialisiert sind, detaillierte Kleidungsmerkmale zu extrahieren und maßgeschneiderte Bilder zu generieren. Insbesondere schlagen wir ein effizientes und skalierbares Modul namens Garment-Specific Feature Extractor in GarmentsNet vor, um Kleidungstexturen individuell parallel zu codieren. Dieses Design verhindert Verwirrung bei den Kleidungsstücken und gewährleistet gleichzeitig die Effizienz des Netzwerks. Gleichzeitig entwerfen wir einen adaptiven Dressing-Attention-Mechanismus und eine neuartige Instance-Level Garment Localization Learning-Strategie in DressingNet, um mehrere Kleidungsmerkmale genau in ihre entsprechenden Regionen einzuspeisen. Dieser Ansatz integriert effizient mehrere Kleidungstexturhinweise in generierte Bilder und verbessert die Text-Bild-Konsistenz weiter. Darüber hinaus führen wir eine Garment-Enhanced Texture Learning-Strategie ein, um die feinkörnigen Texturdetails der Kleidungsstücke zu verbessern. Dank unseres durchdachten Designs kann AnyDressing als Plug-in-Modul dienen, das einfach mit beliebigen Community-Steuerungserweiterungen für Diffusionsmodelle integriert werden kann, um die Vielfalt und Steuerbarkeit der synthetisierten Bilder zu verbessern. Umfangreiche Experimente zeigen, dass AnyDressing Spitzenleistungen erzielt.
Die textbasierte adversarielle Führung unter Verwendung eines negativen Stichworts hat sich als weit verbreiteter Ansatz etabliert, um die Ausgabemerkmale von unerwünschten Konzepten abzulenken. Obwohl nützlich, kann die Durchführung der adversariellen Führung allein mit Text unzureichend sein, um komplexe visuelle Konzepte zu erfassen und unerwünschte visuelle Elemente wie urheberrechtlich geschützte Charaktere zu vermeiden. In diesem Papier erkunden wir erstmals eine alternative Modalität in diese Richtung, indem wir die adversarielle Führung direkt unter Verwendung visueller Merkmale aus einem Referenzbild oder anderen Bildern in einer Charge durchführen. Insbesondere führen wir das negative Token-Merging (NegToMe) ein, einen einfachen, aber effektiven trainingsfreien Ansatz, der die adversarielle Führung durch selektives Auseinanderdrängen übereinstimmender semantischer Merkmale (zwischen Referenz und Ausgabegenerierung) während des umgekehrten Diffusionsprozesses durchführt. Wenn es in Bezug auf andere Bilder in derselben Charge verwendet wird, beobachten wir, dass NegToMe die Ausgabenvielfalt (rassisch, geschlechtsspezifisch, visuell) signifikant erhöht, ohne die Bildqualität zu beeinträchtigen. Ebenso hilft NegToMe, wenn es in Bezug auf ein urheberrechtlich geschütztes Referenzmaterial verwendet wird, die visuelle Ähnlichkeit mit urheberrechtlich geschütztem Inhalt um 34,57% zu reduzieren. NegToMe ist einfach zu implementieren, indem nur wenige Zeilen Code verwendet werden, benötigt nur marginal höhere (<4%) Inferenzzeiten und generalisiert auf verschiedene Diffusionsarchitekturen wie Flux, die die Verwendung eines separaten negativen Stichworts nicht nativ unterstützen. Der Code ist unter https://negtome.github.io verfügbar.
Große Sprachmodelle (LLMs) haben sich als Meilenstein in der künstlichen Intelligenz etabliert, und ihre Leistungsfähigkeit kann sich mit zunehmender Modellgröße verbessern. Diese Skalierung bringt jedoch große Herausforderungen für die Effizienz des Trainings und der Inferenz mit sich, insbesondere bei der Bereitstellung von LLMs in ressourcenbeschränkten Umgebungen, und der Skalierungstrend wird zunehmend als nicht nachhaltig angesehen. Dieser Artikel führt das Konzept der "Kapazitätsdichte" als neue Metrik ein, um die Qualität der LLMs über verschiedene Skalen hinweg zu bewerten und beschreibt den Trend der LLMs in Bezug auf Effektivität und Effizienz. Um die Kapazitätsdichte eines bestimmten Ziel-LLMs zu berechnen, führen wir zunächst eine Reihe von Referenzmodellen ein und entwickeln ein Skalierungsgesetz, um die Leistung dieser Referenzmodelle basierend auf ihren Parametergrößen vorherzusagen. Anschließend definieren wir die effektive Parametergröße des Ziel-LLMs als die Parametergröße, die von einem Referenzmodell benötigt wird, um eine äquivalente Leistung zu erzielen, und formalisieren die Kapazitätsdichte als das Verhältnis der effektiven Parametergröße zur tatsächlichen Parametergröße des Ziel-LLMs. Die Kapazitätsdichte bietet einen einheitlichen Rahmen zur Bewertung sowohl der Modell-Effektivität als auch der Effizienz. Unsere weitere Analyse von aktuellen Open-Source-Basis-LLMs zeigt ein empirisches Gesetz (das Verdichtungsgesetz), wonach die Kapazitätsdichte von LLMs im Laufe der Zeit exponentiell wächst. Genauer gesagt verdoppelt sich die Kapazitätsdichte von LLMs ungefähr alle drei Monate, basierend auf einigen weit verbreiteten Benchmarks zur Bewertung. Dieses Gesetz bietet neue Perspektiven zur Steuerung zukünftiger LLM-Entwicklungen und betont die Bedeutung der Verbesserung der Kapazitätsdichte, um optimale Ergebnisse mit minimalem Rechenaufwand zu erzielen.
Kulturelle Vorurteile in mehrsprachigen Datensätzen stellen erhebliche Herausforderungen für ihre Effektivität als globale Benchmarks dar. Diese Vorurteile entstehen nicht nur aus der Sprache, sondern auch aus dem kulturellen Wissen, das zur Interpretation von Fragen erforderlich ist, was die praktische Nützlichkeit von übersetzten Datensätzen wie MMLU verringert. Darüber hinaus führt die Übersetzung oft zu Artefakten, die die Bedeutung oder Klarheit von Fragen in der Zielsprache verfälschen können. Eine gängige Praxis bei der mehrsprachigen Evaluation besteht darin, sich auf maschinell übersetzte Evaluationssätze zu verlassen, aber allein die Übersetzung eines Datensatzes reicht nicht aus, um diesen Herausforderungen zu begegnen. In dieser Arbeit verfolgen wir die Auswirkungen dieser Probleme auf mehrsprachige Evaluationen und die daraus resultierenden Modellleistungen. Unsere groß angelegte Evaluation von modernsten offenen und proprietären Modellen zeigt, dass der Fortschritt bei MMLU stark von der Aneignung westlich-zentrierter Konzepte abhängt, wobei 28 % aller Fragen kulturell sensibles Wissen erfordern. Darüber hinaus konzentrieren sich bei Fragen, die geografisches Wissen erfordern, erstaunliche 84,9 % entweder auf nordamerikanische oder europäische Regionen. Die Rangfolge der Modellbewertungen ändert sich je nachdem, ob sie auf dem gesamten Teil oder dem Teil der Fragen bewertet werden, die als kulturell sensibel gekennzeichnet sind, was die Verzerrung der Modellrangfolgen zeigt, wenn man blind auf übersetzte MMLU vertraut. Wir veröffentlichen Global-MMLU, eine verbesserte MMLU mit Bewertungsabdeckung in 42 Sprachen - mit insgesamt verbesserter Qualität durch die Einbindung von professionellen und Community-Annotatoren zur Überprüfung der Übersetzungsqualität und zur rigorosen Bewertung der kulturellen Vorurteile im Originaldatensatz. Dieser umfassende Global-MMLU-Datensatz enthält auch speziell gekennzeichnete Teilmengen, die als kulturell sensibel und kulturell agnostisch gekennzeichnet sind, um eine ganzheitlichere, vollständige Bewertung zu ermöglichen.
Wir präsentieren Infinity, ein Bitweise visuelles AutoRegressionsmodell, das in der Lage ist, hochauflösende, fotorealistische Bilder gemäß sprachlicher Anweisungen zu generieren. Infinity definiert das visuelle AutoRegressionsmodell unter einem Bitweisen Token-Vorhersagerahmen mit einem unendlichen Vokabular-Tokenizer und Klassifizierer sowie einer bitweisen Selbstkorrekturmechanismus neu, was die Generierungskapazität und Details deutlich verbessert. Durch die theoretische Skalierung der Vokabulargröße des Tokenizers auf Unendlich und gleichzeitige Skalierung der Transformer-Größe entfaltet unsere Methode signifikant leistungsstarke Skalierungsfähigkeiten im Vergleich zu herkömmlichen VAR-Modellen. Infinity stellt einen neuen Rekord für autoRegressive Text-zu-Bild-Modelle auf, indem es Top-Tier Diffusionsmodelle wie SD3-Medium und SDXL übertrifft. Insbesondere übertrifft Infinity SD3-Medium, indem es den GenEval-Benchmark-Score von 0,62 auf 0,73 und den ImageReward-Benchmark-Score von 0,87 auf 0,96 verbessert und eine Gewinnrate von 66% erreicht. Ohne zusätzliche Optimierung generiert Infinity ein hochwertiges 1024x1024 Bild in 0,8 Sekunden, was es 2,6-mal schneller macht als SD3-Medium und es als das schnellste Text-zu-Bild-Modell etabliert. Modelle und Codes werden veröffentlicht, um die weitere Erforschung von Infinity für die visuelle Generierung und vereinheitlichte Tokenizer-Modellierung zu fördern.
Wir präsentieren HumanEdit, ein hochwertiges, von Menschen belohntes Datenset, das speziell für die anweisungsgesteuerte Bildbearbeitung entwickelt wurde und präzise und vielfältige Bildmanipulationen durch Anweisungen in natürlicher Sprache ermöglicht. Frühere umfangreiche Bearbeitungsdatensets integrieren oft minimales menschliches Feedback, was zu Herausforderungen bei der Anpassung der Datensets an menschliche Präferenzen führt. HumanEdit überbrückt diese Lücke, indem menschliche Annotatoren Datenpaare erstellen und Administratoren Feedback geben. Durch sorgfältige Kuratierung umfasst HumanEdit 5.751 Bilder und erfordert über vier Stufen hinweg mehr als 2.500 Stunden menschlicher Arbeit, um Genauigkeit und Zuverlässigkeit für eine Vielzahl von Bildbearbeitungsaufgaben sicherzustellen. Das Datenset umfasst sechs verschiedene Arten von Bearbeitungsanweisungen: Aktion, Hinzufügen, Zählen, Beziehung, Entfernen und Ersetzen und deckt ein breites Spektrum realer Szenarien ab. Alle Bilder im Datenset werden von Masken begleitet, und für einen Teil der Daten stellen wir sicher, dass die Anweisungen ausreichend detailliert sind, um maskenfreie Bearbeitungen zu unterstützen. Darüber hinaus bietet HumanEdit umfassende Vielfalt und hochauflösende 1024 mal 1024 Inhalte aus verschiedenen Bereichen und setzt damit einen neuen vielseitigen Maßstab für Datensets zur anweisungsgesteuerten Bildbearbeitung. Mit dem Ziel, zukünftige Forschung voranzutreiben und Bewertungsmaßstäbe im Bereich der Bildbearbeitung zu etablieren, veröffentlichen wir HumanEdit unter https://huggingface.co/datasets/BryanW/HumanEdit.
Multimodale große Sprachmodelle (MLLMs) sind aufgrund ihrer erstklassigen Leistung und der Fähigkeit, mehrere Datenmodalitäten wie Text, Bilder und Audio zu integrieren, um komplexe Aufgaben mit hoher Genauigkeit auszuführen, zunehmend wichtig geworden. Dieser Artikel präsentiert eine umfassende Untersuchung personalisierter multimodaler großer Sprachmodelle, wobei der Fokus auf deren Architektur, Trainingsmethoden und Anwendungen liegt. Wir schlagen eine intuitive Taxonomie zur Kategorisierung der Techniken vor, die zur Personalisierung von MLLMs für individuelle Benutzer verwendet werden, und diskutieren die Techniken entsprechend. Darüber hinaus erörtern wir, wie solche Techniken kombiniert oder angepasst werden können, wobei ihre Vorteile und zugrunde liegende Begründung hervorgehoben werden. Wir bieten auch eine prägnante Zusammenfassung der Personalisierungsaufgaben, die in bestehenden Forschungen untersucht wurden, sowie der üblicherweise verwendeten Bewertungsmetriken. Darüber hinaus fassen wir die Datensätze zusammen, die nützlich sind, um personalisierte MLLMs zu benchmarken. Abschließend skizzieren wir wichtige offene Herausforderungen. Diese Untersuchung zielt darauf ab, ein wertvolles Ressourcenmaterial für Forscher und Praktiker zu sein, die das Verständnis und die Weiterentwicklung personalisierter multimodaler großer Sprachmodelle vorantreiben möchten.
Das Verständnis der internen Berechnungen großer Sprachmodelle (LLMs) ist entscheidend, um sie mit menschlichen Werten in Einklang zu bringen und unerwünschte Verhaltensweisen wie die Erzeugung von toxischen Inhalten zu verhindern. Mechanistische Interpretierbarkeit wird jedoch durch Polysemie behindert - wo einzelne Neuronen auf mehrere, nicht zusammenhängende Konzepte reagieren. Während Sparse Autoencoder (SAEs) versucht haben, diese Merkmale durch spärliches Wörterbuchlernen zu entwirren, haben sie die Leistung von LLMs beeinträchtigt, da sie auf nachträglichen Rekonstruktionsverlust angewiesen sind. Um dieses Problem anzugehen, führen wir die Architektur Mixture of Monosemantic Experts for Transformers (Monet) ein, die das spärliche Wörterbuchlernen direkt in das end-to-end Mixture-of-Experts-Training integriert. Unsere neuartige Expertenzerlegungsmethode ermöglicht die Skalierung der Expertenzahl auf 262.144 pro Schicht, während die Gesamtparameter proportional zur Quadratwurzel der Anzahl der Experten skaliert werden. Unsere Analysen zeigen die gegenseitige Ausschließlichkeit des Wissens über Experten hinweg und präsentieren das parametrische Wissen, das in einzelnen Experten verkörpert ist. Darüber hinaus ermöglicht Monet die Manipulation von Wissen über Domänen, Sprachen und die Minderung von Toxizität, ohne die allgemeine Leistung zu beeinträchtigen. Unsere Bestrebungen, transparente LLMs zu schaffen, unterstreichen das Potenzial, die Anzahl der Experten zu skalieren, um die mechanistische Interpretierbarkeit zu verbessern und das interne Wissen direkt zu modifizieren, um das Verhalten des Modells grundlegend anzupassen. Der Quellcode und vortrainierte Checkpoints sind verfügbar unter https://github.com/dmis-lab/Monet.
Wir stellen OmniFlow vor, ein neuartiges generatives Modell, das für Aufgaben der beliebigen Generierung wie Text-zu-Bild, Text-zu-Audio und Audio-zu-Bild-Synthese entwickelt wurde. OmniFlow erweitert das rektifizierte Fluss (RF) Framework, das in Text-zu-Bild-Modellen verwendet wird, um die gemeinsame Verteilung mehrerer Modalitäten zu handhaben. Es übertrifft frühere beliebig-generierende Modelle in einer Vielzahl von Aufgaben, wie Text-zu-Bild- und Text-zu-Audio-Synthese. Unsere Arbeit bietet drei wesentliche Beiträge: Erstens erweitern wir RF auf eine Multi-Modalitätseinstellung und führen einen neuartigen Leitmechanismus ein, der es Benutzern ermöglicht, die Ausrichtung zwischen verschiedenen Modalitäten in den generierten Ausgaben flexibel zu steuern. Zweitens schlagen wir eine neue Architektur vor, die die Text-zu-Bild-MMDiT-Architektur von Stable Diffusion 3 erweitert und Audio- und Textgenerierung ermöglicht. Die erweiterten Module können effizient einzeln vorab trainiert und mit dem herkömmlichen Text-zu-Bild-MMDiT zur Feinabstimmung fusioniert werden. Schließlich führen wir eine umfassende Studie zu den Designentscheidungen von rektifizierten Fluss-Transformern für die groß angelegte Audio- und Textgenerierung durch und bieten wertvolle Einblicke in die Optimierung der Leistung über verschiedene Modalitäten hinweg. Der Code wird unter https://github.com/jacklishufan/OmniFlows verfügbar sein.
Als weltweit gefeierter Sport hat Fußball ein breites Interesse von Fans auf der ganzen Welt geweckt. Dieser Artikel zielt darauf ab, einen umfassenden multimodalen Rahmen für das Verständnis von Fußballvideos zu entwickeln. Konkret leisten wir in diesem Artikel folgende Beiträge: (i) Wir stellen SoccerReplay-1988 vor, den größten multimodalen Fußballdatensatz bis heute, der Videos und detaillierte Annotationen von 1.988 vollständigen Spielen enthält, mit einer automatisierten Annotationspipeline; (ii) Wir präsentieren das erste visuell-sprachliche Grundlagenmodell im Fußballbereich, MatchVision, das raumzeitliche Informationen über Fußballvideos nutzt und in verschiedenen nachgelagerten Aufgaben hervorragende Leistungen erbringt; (iii) Wir führen umfangreiche Experimente und Ablationsstudien zur Ereignisklassifizierung, Kommentarerstellung und Mehrsicht-Foul-Erkennung durch. MatchVision zeigt Spitzenleistungen in all diesen Bereichen und übertrifft bestehende Modelle deutlich, was die Überlegenheit unserer vorgeschlagenen Daten und Modelle unterstreicht. Wir sind der Überzeugung, dass diese Arbeit einen Standardparadigma für die Forschung im Bereich des Sportverständnisses bieten wird.
Kontrastiv trainierte Vision-Language-Modelle (VLMs) wie CLIP sind zum de facto Ansatz für das diskriminative Erlernen von Vision-Language-Repräsentationen geworden. Diese Modelle weisen jedoch eine begrenzte Sprachverständnis auf und zeigen oft ein "Bag of Words"-Verhalten. Gleichzeitig haben sich große Vision-Language-Modelle (LVLMs), die Bildencoder mit LLMs kombinieren, als fähig erwiesen, detaillierte Vision-Language-Schlussfolgerungen zu ziehen, doch ihre autoregressive Natur macht sie weniger geeignet für diskriminative Aufgaben. In dieser Arbeit schlagen wir vor, "das Beste aus beiden Welten zu kombinieren": einen neuen Schulungsansatz für das diskriminative Feintuning von LVLMs, der zu starken diskriminativen und kompositorischen Fähigkeiten führt. Grundsätzlich wandelt unser Ansatz ein generatives LVLM in ein diskriminatives um, um seine Fähigkeit für leistungsstarke Bild-Text-Diskriminierung in Verbindung mit verbessertem Sprachverständnis zu erschließen. Unsere Beiträge umfassen: (1) Ein sorgfältig gestaltetes Schulungs-/Optimierungsrahmenwerk, das Bild-Text-Paare unterschiedlicher Länge und Granularität für das Training des Modells mit sowohl kontrastiven als auch Next-Token-Vorhersageverlusten verwendet. Dies wird durch Ablationsstudien begleitet, die die Notwendigkeit der Komponenten unseres Rahmens rechtfertigen. (2) Eine parameter-effiziente Anpassungsmethode unter Verwendung einer Kombination aus Soft Prompting und LoRA-Adaptern. (3) Signifikante Verbesserungen gegenüber modernen CLIP-ähnlichen Modellen ähnlicher Größe, einschließlich Standard-Bild-Text-Retrieval-Benchmarks und bemerkenswerten Fortschritten in der Kompositionalität.
Große Sprachmodelle (LLMs) haben in den letzten Jahren bemerkenswerte Fortschritte erzielt; jedoch ist ihre ausgezeichnete Leistung immer noch weitgehend auf die großen Weltsprachen, hauptsächlich Englisch, beschränkt. Viele LLMs haben nach wie vor Schwierigkeiten mit mehrsprachigen Aufgaben, insbesondere bei wenig ressourcenstarken Sprachen. Um dieses Problem anzugehen, haben wir Marco-LLM eingeführt: Massives mehrsprachiges Training zur Verbesserung der mehrsprachigen Fähigkeiten von LLMs. Wir haben eine beträchtliche Menge mehrsprachiger Daten für mehrere wenig ressourcenstarke Sprachen gesammelt und umfangreiches kontinuierliches Vor-Training unter Verwendung der Qwen2-Modelle durchgeführt. Diese Bemühungen haben zu einem mehrsprachigen LLM namens Marco-LLM geführt. Durch umfassende Bewertungen auf verschiedenen mehrsprachigen Benchmarks, einschließlich MMMLU, AGIEval, Belebele, Flores-200, XCOPA und vielen anderen, hat Marco-LLM signifikante Verbesserungen gegenüber führenden LLMs gezeigt. Darüber hinaus erzielte Marco-LLM signifikante Verbesserungen bei maschinellen Übersetzungsaufgaben von jeder Sprache zu jeder Sprache, was die Wirksamkeit unseres mehrsprachigen LLMs zeigt. Marco-LLM ist ein wegweisendes mehrsprachiges LLM, das nicht nur bei mehrsprachigen Aufgaben, einschließlich wenig ressourcenstarker Sprachen, außergewöhnlich gut abschneidet, sondern auch eine starke Leistung in Englisch und anderen großen Sprachen beibehält und die Leistungslücke zwischen wenig und stark ressourcenstarken Sprachen schließt. Durch die Verbindung von Sprachen zeigt dieser Ansatz unsere Hingabe, sicherzustellen, dass LLMs präzise in verschiedenen Sprachen arbeiten.
In jüngster Zeit haben Fortschritte bei Video-Diffusionsmodellen neues Potenzial für die realistische Generierung von sprachgesteuerten Videos eröffnet. Dennoch bleiben nahtlose Audio-Lippen-Synchronisation, die Aufrechterhaltung einer langfristigen Identitätskonsistenz und die Erzeugung natürlicher, audioausgerichteter Ausdrücke in generierten sprachgesteuerten Videos bedeutende Herausforderungen. Um diesen Herausforderungen zu begegnen, schlagen wir Memory-gesteuerte EMOtionsbewusste Diffusion (MEMO) vor, einen audiogetriebenen Porträtanimationsansatz zur Generierung von identitätskonsistenten und ausdrucksstarken sprachgesteuerten Videos. Unser Ansatz basiert auf zwei Schlüsselmodulen: (1) ein memory-gesteuertes zeitliches Modul, das die langfristige Identitätskonsistenz und Bewegungsglättung verbessert, indem es Gedächtniszustände entwickelt, um Informationen aus einem längeren vergangenen Kontext zu speichern, um das zeitliche Modellieren über lineare Aufmerksamkeit zu lenken; und (2) ein emotionsbewusstes Audio-Modul, das herkömmliche Kreuz-Aufmerksamkeit durch multimodale Aufmerksamkeit ersetzt, um die Audio-Video-Interaktion zu verbessern, während Emotionen aus dem Audio erkannt werden, um Gesichtsausdrücke über emotionale adaptive Schichtnormen zu verfeinern. Umfangreiche quantitative und qualitative Ergebnisse zeigen, dass MEMO realistischere sprachgesteuerte Videos über verschiedene Bild- und Audiotypen generiert, indem es führende Methoden in Bezug auf Gesamtqualität, Audio-Lippen-Synchronisation, Identitätskonsistenz und Ausdrucks-Emotions-Ausrichtung übertrifft.
In diesem Paper schlagen wir ZipAR vor, ein trainingfreies, Plug-and-Play-Parallel-Decodierungs-Framework zur Beschleunigung der autoregressiven (AR) visuellen Generierung vor. Die Motivation ergibt sich aus der Beobachtung, dass Bilder lokale Strukturen aufweisen und räumlich entfernte Regionen tendenziell eine minimale gegenseitige Abhängigkeit haben. Gegeben eine teilweise decodierte Menge von visuellen Tokens, können neben dem ursprünglichen Vorhersageschema des nächsten Tokens in der Zeilendimension die Tokens, die räumlich benachbarten Regionen in der Spaltendimension entsprechen, parallel decodiert werden, was das Paradigma der "nächsten-Menge-Vorhersage" ermöglicht. Durch gleichzeitiges Decodieren mehrerer Tokens in einem einzigen Vorwärtspass wird die Anzahl der Vorwärtspässe, die zur Generierung eines Bildes erforderlich sind, signifikant reduziert, was zu einer erheblichen Verbesserung der Generierungseffizienz führt. Experimente zeigen, dass ZipAR die Anzahl der Modell-Vorwärtspässe auf dem Emu3-Gen-Modell um bis zu 91% reduzieren kann, ohne dass zusätzliches Neutraining erforderlich ist.
Die aktuellen großen Sprachmodelle basieren hauptsächlich auf Dekodierungs-Struktur-Transformatoren, die über ausgezeichnete Fähigkeiten zum kontextbezogenen Lernen (ICL) verfügen. Es wird allgemein angenommen, dass die wichtige Grundlage ihrer ICL-Fähigkeit der Induktionskopfmechanismus ist, der mindestens zwei Schichten Aufmerksamkeit erfordert. Um die Fähigkeit der Modellinduktion effizienter umzusetzen, überprüfen wir den Induktionskopfmechanismus erneut und schlagen eine KV-Verschiebungs-Aufmerksamkeit vor. Wir weisen theoretisch nach, dass die KV-Verschiebungs-Aufmerksamkeit die Anforderungen des Modells an die Tiefe und Breite des Induktionskopfmechanismus reduziert. Unsere experimentellen Ergebnisse zeigen, dass die KV-Verschiebungs-Aufmerksamkeit vorteilhaft für das Lernen von Induktionsköpfen und Sprachmodellierung ist, was zu einer besseren Leistung oder schnelleren Konvergenz von Spielzeugmodellen zu den Vor-Trainingsmodellen mit mehr als 10 B Parametern führt.
Wir schlagen 4Real-Video vor, ein neuartiges Framework zur Generierung von 4D-Videos, organisiert als Raster von Videoframes mit sowohl Zeit- als auch Blickachsen. In diesem Raster enthält jede Zeile Frames, die denselben Zeitschritt teilen, während jede Spalte Frames aus derselben Perspektive enthält. Wir schlagen eine neuartige Zwei-Stream-Architektur vor. Ein Stream führt Blickwinkelaktualisierungen in den Spalten durch, und der andere Stream führt zeitliche Aktualisierungen in den Zeilen durch. Nach jeder Diffusions-Transformer-Schicht tauscht eine Synchronisationsschicht Informationen zwischen den beiden Token-Streams aus. Wir schlagen zwei Implementierungen der Synchronisationsschicht vor, die entweder harte oder weiche Synchronisation verwenden. Diese Feedforward-Architektur verbessert frühere Arbeiten auf drei Arten: höhere Inferenzgeschwindigkeit, verbesserte visuelle Qualität (gemessen an FVD, CLIP und VideoScore) und verbesserte zeitliche und perspektivische Konsistenz (gemessen an VideoScore und Dust3R-Confidence).
Trotz der bemerkenswerten Leistung von multimodalen großen Sprachmodellen (MLLMs) bei verschiedenen Aufgaben behindern die erheblichen Schulungs- und Inferenzkosten ihren Fortschritt. Der Großteil der Berechnung resultiert aus dem überwältigenden Volumen von Bildtokens, die vom Transformer-Decoder verarbeitet werden. In diesem Artikel schlagen wir vor, effiziente MLLMs aufzubauen, indem wir den Mechanismus der Mischung von Tiefen (MoD) nutzen, bei dem jede Transformer-Decoder-Schicht wesentliche Bildtokens zur Verarbeitung auswählt und redundante überspringt. Die Integration von MoD in MLLMs ist jedoch nicht trivial. Um den Herausforderungen der Stabilität des Trainings und der Inferenz sowie begrenzter Trainingsdaten zu begegnen, passen wir das MoD-Modul mit zwei neuen Designs an: Tangens-Hyperbolicus-gesteuerte Gewichtsnormierung (TanhNorm) und symmetrische Token-Neugewichtung (STRing). Darüber hinaus stellen wir fest, dass Bildtokens in tieferen Schichten eine höhere Redundanz aufweisen und entwickeln daher eine progressive Verhältnisabnahme (PRD)-Strategie, die schichtweise das Token-Rückhalteverhältnis allmählich reduziert und einen verschobenen Cosinus-Zeitplan verwendet. Dieses entscheidende Design entfesselt das Potenzial von MoD vollständig und steigert signifikant die Effizienz und Leistung unserer Modelle. Um die Wirksamkeit unseres Ansatzes zu validieren, führen wir umfangreiche Experimente mit zwei Basislinienmodellen in 14 Benchmarks durch. Unser Modell, p-MoD, erreicht oder übertrifft sogar die Leistung der Basislinienmodelle, mit nur 55,6% TFLOPs und 53,8% KV-Cachespeicher während der Inferenz sowie 77,7% GPU-Stunden während des Trainings.
Trotz bedeutender Fortschritte bei Modellen für Bildsprache (VLMs) fehlen effektive Ansätze zur Verbesserung der Antwortqualität durch Skalierung der Berechnung zur Inferenzzeit. Diese Fähigkeit gilt als entscheidender Schritt hin zu selbstverbessernden Modellen in jüngsten Studien großer Sprachmodelle. In diesem Artikel präsentieren wir das Vision Value Model (VisVM), das die Suche zur Inferenzzeit von VLMs anleiten kann, um Antworten mit besserem visuellen Verständnis zu generieren. Speziell bewertet VisVM nicht nur die Qualität des generierten Satzes im aktuellen Suchschritt, sondern antizipiert auch die Qualität nachfolgender Sätze, die aus dem aktuellen Schritt resultieren können, und bietet somit einen langfristigen Wert. Auf diese Weise lenkt VisVM VLMs davon ab, Sätze zu generieren, die anfällig für Halluzinationen oder unzureichende Details sind, und erzeugt somit qualitativ hochwertigere Antworten. Experimentelle Ergebnisse zeigen, dass die von VisVM geleitete Suche die Fähigkeit von VLMs, beschreibende Bildunterschriften mit reichhaltigeren visuellen Details und weniger Halluzinationen zu generieren, signifikant verbessert im Vergleich zu gieriger Dekodierung und Suchmethoden mit anderen visuellen Belohnungssignalen. Darüber hinaus stellen wir fest, dass das Selbsttraining des Modells mit den von VisVM geleiteten Bildunterschriften die Leistung von VLMs über eine breite Palette multimodaler Benchmarks verbessert, was auf das Potenzial zur Entwicklung selbstverbessernder VLMs hinweist. Unser Wertmodell und der Code sind verfügbar unter https://github.com/si0wang/VisVM.
Die Segmentierung von medizinischen Bildern hat kürzlich beeindruckende Fortschritte mit tiefen neuronalen Netzwerken gezeigt, doch die heterogenen Modalitäten und die Knappheit von Maskenannotationen begrenzen die Entwicklung von Segmentierungsmodellen auf nicht annotierten Modalitäten. Diese Arbeit untersucht ein neues Paradigma zur Nutzung generativer Modelle in medizinischen Anwendungen: die kontrollierte Synthese von Daten für nicht annotierte Modalitäten, ohne registrierte Datenpaare zu benötigen. Konkret leisten wir in dieser Arbeit folgende Beiträge: (i) Wir sammeln und kuratieren einen umfangreichen Radiologie-Bild-Text-Datensatz, MedGen-1M, bestehend aus Modalitätslabels, Attributen, Regionen- und Organinformationen sowie einem Teil von Organmaskenannotationen, um die Forschung in der kontrollierten medizinischen Bildgenerierung zu unterstützen; (ii) Wir schlagen eine auf Diffusion basierende Datenengine vor, genannt MRGen, die die Generierung abhängig von Texteingaben und Masken ermöglicht, um MR-Bilder für verschiedene Modalitäten ohne Maskenannotationen zu synthetisieren und Segmentierungsmodelle auf nicht annotierten Modalitäten zu trainieren; (iii) Wir führen umfangreiche Experimente über verschiedene Modalitäten hinweg durch, die zeigen, dass unsere Datenengine effektiv Trainingsbeispiele synthetisieren kann und die MRI-Segmentierung auf nicht annotierte Modalitäten ausweiten kann.
Die Extraktion von Tabellen aus Dokumentenbildern ist ein herausforderndes KI-Problem, und markierte Daten für viele Inhaltsbereiche sind schwer zu bekommen. Bestehende Tabellenextraktionsdatensätze konzentrieren sich oft auf wissenschaftliche Tabellen aufgrund der großen Menge an wissenschaftlichen Artikeln, die leicht verfügbar sind, zusammen mit ihrem Quellcode. Es gibt jedoch erhebliche Layout- und typografische Unterschiede zwischen Tabellen in wissenschaftlichen, finanziellen und anderen Bereichen. Aktuelle Datensätze enthalten oft nicht die Wörter und ihre Positionen innerhalb der Tabellen, sondern verlassen sich stattdessen auf unzuverlässige OCR, um diese Merkmale zur Schulung moderner maschineller Lernmodelle für Aufgaben der natürlichen Sprachverarbeitung zu extrahieren. Daher besteht Bedarf an einer allgemeineren Methode zur Beschaffung von markierten Daten. Wir stellen SynFinTabs vor, einen groß angelegten, markierten Datensatz synthetischer Finanztabellen. Wir hoffen, dass unsere Methode zur Generierung dieser synthetischen Tabellen auf andere Bereiche übertragbar ist. Um die Wirksamkeit unseres Datensatzes beim Training von Modellen zur Extraktion von Informationen aus Tabellenbildern zu demonstrieren, erstellen wir FinTabQA, ein großes Sprachmodell, das auf einer extraktiven Frage-Antwort-Aufgabe trainiert ist. Wir testen unser Modell anhand von Finanztabellen aus der realen Welt, vergleichen es mit einem State-of-the-Art-generativen Modell und diskutieren die Ergebnisse. Wir stellen den Datensatz, das Modell und den Code zur Datensatzerzeugung öffentlich zur Verfügung.
Offene Community-Plattformen wie Chatbot Arena, die Nutzervorlieben von Seitenbesuchern sammeln, haben sich einen Ruf als eine der vertrauenswürdigsten öffentlich verfügbaren Referenzwerte für die Leistung von LLMs erarbeitet. Obwohl mittlerweile Standard, gestaltet es sich schwierig, effektive Schutzmechanismen zu implementieren, um hochwertige Annotationen von Menschen zu sammeln. In diesem Paper zeigen wir, dass drei Quellen schlechter Annotationen, sowohl bösartiger als auch anderweitig fehlerhafter Art, die Zuverlässigkeit von offenen Bestenlisten-Rankings beeinträchtigen können. Insbesondere zeigen wir, dass bereits 10\% minderwertiger Bewertungen durch gleichgültige (Seitenbesucher, die nicht angemessen incentiviert sind, korrekte Bewertungen abzugeben) oder feindlich gesinnte (schlechte Akteure, die versuchen, das Ranking eines Zielmodells zu manipulieren) Annotatoren die Platzierungen von Modellen um bis zu 5 Plätze auf der Bestenliste verändern können. Abschließend diskutieren wir offene Herausforderungen bei der Sicherstellung hochwertiger menschlicher Annotationen.
Wir entwickeln Aufgabenskalierungsgesetze und Modellleitern, um die individuelle Aufgabenleistung von vortrainierten Sprachmodellen (LMs) im übertrainierten Szenario vorherzusagen. Standardpotenzgesetze für den Verlust beim Sprachmodellieren können die Aufgabenleistung nicht genau modellieren. Daher nutzen wir einen zweistufigen Vorhersageansatz: Zuerst verwenden wir Modell- und Datengröße, um einen aufgabenspezifischen Verlust vorherzusagen, und verwenden dann diesen Aufgabenverlust, um die Aufgabenleistung vorherzusagen. Wir trainieren eine Reihe von kleinskaligen "Leiter"-Modellen, sammeln Datenpunkte, um die parametrisierten Funktionen der beiden Vorhersageschritte anzupassen, und treffen Vorhersagen für zwei Zielmodelle: ein 7B-Modell, das auf 4T Token trainiert ist, und ein 13B-Modell, das auf 5T Token trainiert ist. Das Training der Leitermodelle kostet nur 1 % der Rechenleistung, die für die Zielmodelle verwendet wird. Bei vier Multiple-Choice-Aufgaben im Format der gerankten Klassifizierung können wir die Genauigkeit beider Zielmodelle mit einem Fehler von maximal 2 Punkten vorhersagen. Wir haben einen höheren Vorhersagefehler bei vier anderen Aufgaben (durchschnittlicher absoluter Fehler 6,9) und stellen fest, dass dies oft Aufgaben mit höherer Varianz bei den Aufgabenmetriken sind. Wir finden auch heraus, dass die Verwendung von weniger Rechenleistung zur Schulung weniger Leitermodelle dazu neigt, die Vorhersagen zu verschlechtern. Schließlich zeigen wir empirisch, dass unsere Designentscheidungen und der zweistufige Ansatz zu einer überlegenen Leistung bei der Festlegung von Skalierungsgesetzen führen.