Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Extraktion von Dokumenteninhalten ist in der Computer Vision von entscheidender Bedeutung, insbesondere um den hohen Qualitätsdatenbedarf großer Sprachmodelle (LLMs) und Technologien zur abgerufenen Generierung (RAG) zu erfüllen. Allerdings leiden aktuelle Methoden zur Dokumentenanalyse unter erheblichen Einschränkungen hinsichtlich Vielfalt und umfassender Bewertung. Um diesen Herausforderungen zu begegnen, stellen wir OmniDocBench vor, einen neuartigen Multi-Source-Benchmark, der darauf abzielt, die automatisierte Extraktion von Dokumenteninhalten voranzutreiben. OmniDocBench umfasst einen sorgfältig zusammengestellten und annotierten Datensatz zur Bewertung von hoher Qualität, der neun verschiedene Dokumententypen wie wissenschaftliche Arbeiten, Lehrbücher, Folien und andere umfasst. Unser Benchmark bietet ein flexibles und umfassendes Bewertungsframework mit 19 Layout-Kategorielabels und 14 Attributlabels, die mehrstufige Bewertungen über gesamte Datensätze, einzelne Module oder spezifische Datentypen ermöglichen. Unter Verwendung von OmniDocBench führen wir eine umfassende vergleichende Analyse bestehender modularer Pipelines und multimodaler End-to-End-Methoden durch, wobei ihre Einschränkungen im Umgang mit der Dokumentenvielfalt hervorgehoben und eine faire Bewertung gewährleistet wird. OmniDocBench etabliert einen robusten, vielfältigen und fairen Bewertungsstandard für das Feld der Dokumentenextraktion und bietet wichtige Erkenntnisse für zukünftige Fortschritte sowie die Förderung der Entwicklung von Dokumentenanalysetechnologien. Die Codes und der Datensatz sind unter https://github.com/opendatalab/OmniDocBench verfügbar.
Große Sprachmodelle (LLMs) sind darauf beschränkt, im "Sprachraum" zu argumentieren, wo sie typischerweise den Argumentationsprozess mit einer Gedankenkette (CoT) ausdrücken, um ein komplexes Argumentationsproblem zu lösen. Allerdings argumentieren wir, dass der Sprachraum nicht immer optimal für das Argumentieren sein könnte. Zum Beispiel dienen die meisten Worttoken hauptsächlich der textuellen Kohärenz und sind nicht wesentlich für das Argumentieren, während einige kritische Token komplexe Planung erfordern und große Herausforderungen für LLMs darstellen. Um das Potenzial des Argumentierens von LLMs in einem unbeschränkten latenten Raum anstelle der Verwendung natürlicher Sprache zu erkunden, führen wir ein neues Paradigma namens Coconut (Kette des kontinuierlichen Denkens) ein. Wir nutzen den letzten versteckten Zustand des LLM als Repräsentation des Argumentationszustands (bezeichnet als "kontinuierliches Denken"). Anstatt dies in ein Worttoken zu decodieren, führen wir es dem LLM als nachfolgendes Eingabeembedding direkt im kontinuierlichen Raum zurück. Experimente zeigen, dass Coconut die Leistung des LLM bei mehreren Argumentationsaufgaben effektiv verbessern kann. Dieses neuartige latente Argumentationsparadigma führt zu aufkommenden fortgeschrittenen Argumentationsmustern: Das kontinuierliche Denken kann mehrere alternative nächste Argumentationsschritte codieren, was dem Modell ermöglicht, eine Breitensuche (BFS) zur Problemlösung durchzuführen, anstatt sich frühzeitig auf einen einzigen deterministischen Pfad wie CoT festzulegen. Coconut übertrifft CoT bei bestimmten logischen Argumentationsaufgaben, die während der Planung erhebliches Backtracking erfordern, mit weniger Denk-Tokens während der Inferenz. Diese Ergebnisse zeigen das Potenzial des latenten Argumentierens auf und bieten wertvolle Einblicke für zukünftige Forschung.
Da Sprachmodelle regelmäßig Fehler bei der Lösung mathematischer Probleme machen, wird die automatisierte Identifizierung von Fehlern im Denkprozess zunehmend wichtig für ihre skalierbare Überwachung. In diesem Paper stellen wir ProcessBench vor, um die Fähigkeit zur Identifizierung fehlerhafter Schritte im mathematischen Denkprozess zu messen. Es besteht aus 3.400 Testfällen, die hauptsächlich auf Wettbewerbs- und Olympiade-Level Mathematikprobleme ausgerichtet sind. Jeder Testfall enthält eine schrittweise Lösung mit von menschlichen Experten annotierten Fehlerorten. Modelle müssen den frühesten Schritt identifizieren, der einen Fehler enthält, oder schlussfolgern, dass alle Schritte korrekt sind. Wir führen eine umfassende Evaluation auf ProcessBench durch, die zwei Arten von Modellen umfasst: Prozessbelohnungsmodelle (PRMs) und Kritikermodelle, wobei wir bei letzteren allgemeine Sprachmodelle auffordern, jede Lösung schrittweise zu kritisieren. Wir ziehen zwei Hauptbeobachtungen: (1) Bestehende PRMs scheitern typischerweise daran, sich auf anspruchsvollere Mathematikprobleme jenseits von GSM8K und MATH zu verallgemeinern. Sie schneiden schlechter ab als Kritikermodelle (d. h. aufgeforderte allgemeine Sprachmodelle) und unser eigenes trainiertes PRM, das unkompliziert auf dem PRM800K-Datensatz feinabgestimmt ist. (2) Das beste Open-Source-Modell, QwQ-32B-Preview, hat die Fähigkeit zur Kritik gezeigt, die mit dem proprietären Modell GPT-4o konkurrieren kann, obwohl es immer noch hinter dem auf den Denkprozess spezialisierten o1-mini zurückbleibt. Wir hoffen, dass ProcessBench zukünftige Forschung im Bereich der Bewertung von Denkprozessen fördern kann und den Weg für eine skalierbare Überwachung von Sprachmodellen ebnet.
Die Integration von Gedächtnis in Agenten ist für zahlreiche Aufgaben im Bereich des Reinforcement Learning (RL) unerlässlich. Insbesondere ist Gedächtnis entscheidend für Aufgaben, die die Nutzung vergangener Informationen, die Anpassung an neue Umgebungen und eine verbesserte Stichproben-Effizienz erfordern. Allerdings umfasst der Begriff "Gedächtnis" eine Vielzahl von Konzepten, die in Verbindung mit dem Fehlen einer einheitlichen Methodik zur Validierung des Gedächtnisses eines Agenten zu fehlerhaften Beurteilungen über die Gedächtnisfähigkeiten von Agenten führen und einen objektiven Vergleich mit anderen Gedächtnis-verbesserten Agenten verhindern. Dieser Artikel zielt darauf ab, das Konzept des Gedächtnisses im RL zu vereinfachen, indem präzise praktische Definitionen von Agenten-Gedächtnistypen wie Langzeit- versus Kurzzeitgedächtnis und deklaratives versus prozedurales Gedächtnis, inspiriert von der kognitiven Wissenschaft, bereitgestellt werden. Unter Verwendung dieser Definitionen kategorisieren wir verschiedene Klassen von Agenten-Gedächtnis, schlagen eine robuste experimentelle Methodik zur Bewertung der Gedächtnisfähigkeiten von RL-Agenten vor und standardisieren Bewertungen. Darüber hinaus demonstrieren wir empirisch die Bedeutung der Einhaltung der vorgeschlagenen Methodik bei der Bewertung verschiedener Arten von Agenten-Gedächtnis durch die Durchführung von Experimenten mit verschiedenen RL-Agenten und welche Folgen deren Verletzung hat.
Die rasante Entwicklung großer Vision-Language-Modelle (VLMs) hat zu beeindruckenden Ergebnissen bei akademischen Benchmarks geführt, hauptsächlich in weit verbreiteten Sprachen. Es bestehen jedoch weiterhin signifikante Lücken in der Fähigkeit der aktuellen VLMs, mit Sprachen mit geringen Ressourcen und unterschiedlichen kulturellen Kontexten umzugehen, hauptsächlich aufgrund eines Mangels an hochwertigen, vielfältigen und sicherheitsgeprüften Daten. Folglich haben diese Modelle oft Schwierigkeiten, Sprachen mit geringen Ressourcen und kulturelle Feinheiten auf eine Weise zu verstehen, die frei von Toxizität ist. Um diese Einschränkungen anzugehen, stellen wir Maya vor, ein Open-Source Multimodal Multilingual-Modell. Unsere Beiträge sind dreifach: 1) ein mehrsprachiger Bild-Text-Pretraining-Datensatz in acht Sprachen, basierend auf dem LLaVA-Pretraining-Datensatz; 2) eine gründliche Analyse der Toxizität innerhalb des LLaVA-Datensatzes, gefolgt von der Erstellung einer neuartigen toxizitätsfreien Version in acht Sprachen; und 3) ein mehrsprachiges Bild-Text-Modell, das diese Sprachen unterstützt und das kulturelle und sprachliche Verständnis bei Vision-Language-Aufgaben verbessert. Der Code ist verfügbar unter https://github.com/nahidalam/maya.
Die globale visuelle Geolokalisierung sagt voraus, wo ein Bild auf der Erde aufgenommen wurde. Da Bilder in ihrer Genauigkeit variieren, beinhaltet diese Aufgabe zwangsläufig ein erhebliches Maß an Unschärfe. Allerdings sind bestehende Ansätze deterministisch und übersehen diesen Aspekt. In diesem Paper zielen wir darauf ab, die Kluft zwischen traditioneller Geolokalisierung und modernen generativen Methoden zu schließen. Wir schlagen den ersten generativen Geolokalisierungsansatz vor, der auf Diffusion und Riemannschem Flussabgleich basiert, wobei der Entrauschungsprozess direkt auf der Erdoberfläche stattfindet. Unser Modell erzielt Spitzenleistungen auf drei visuellen Geolokalisierungs-Benchmarks: OpenStreetView-5M, YFCC-100M und iNat21. Darüber hinaus führen wir die Aufgabe der probabilistischen visuellen Geolokalisierung ein, bei der das Modell eine Wahrscheinlichkeitsverteilung über alle möglichen Standorte anstelle eines einzelnen Punktes vorhersagt. Wir stellen neue Metriken und Baselines für diese Aufgabe vor und zeigen die Vorteile unseres auf Diffusion basierenden Ansatzes auf. Codes und Modelle werden verfügbar gemacht.
Multimodale große Sprachmodelle (MLLMs) zeichnen sich in Vision-Sprach-Aufgaben aus, indem sie ausschließlich auf grobkörnige Konzeptannotationen (z. B. Bildunterschriften) vortrainiert werden. Wir vermuten, dass die Integration feinkörniger Konzeptannotationen (z. B. Objektetiketten und Objektregionen) die Leistung weiter verbessern wird, da sich beide Datengranularitäten in Bezug auf Breite und Tiefe der Konzeptrepräsentation ergänzen. Wir stellen einen neuen Datensatz vor, der Multimodale Multi-Grained Concept-Annotationen (MMGiC) für MLLMs enthält. Bei der Erstellung von MMGiC untersuchen wir die Auswirkungen verschiedener Datensätze auf das multimodale Verständnis und die Generierung. Unsere Analysen zeigen, dass Multi-Grained Concept-Annotationen sich unter unserer strukturierten Vorlage und einem allgemeinen MLLM-Framework integrieren und ergänzen. Wir erforschen und zeigen eindeutig das Potenzial von MMGiC auf, MLLMs dabei zu unterstützen, Konzepte besser zu lokalisieren und zu erlernen, indem Vision und Sprache auf mehreren Granularitätsebenen ausgerichtet werden. Wir validieren unsere Hypothese weiter, indem wir den fairen Vergleich und die effektive Zusammenarbeit zwischen MMGiC und Bild-Untertitel-Daten in 12 multimodalen Verständnis- und Generierungstests untersuchen, z. B. erreichen ihre angemessene Kombination 3,95% bzw. 2,34% absolute Verbesserungen gegenüber alleinigen Bild-Untertitel-Daten bei POPE und SEED-Bench. Code, Daten und Modelle sind unter https://github.com/LooperXX/MMGiC verfügbar.
In den letzten Jahren gab es ein signifikantes Interesse an der Vereinheitlichung von Bildverständnis und -erzeugung innerhalb großer Sprachmodelle (LLMs). Dieses wachsende Interesse hat uns dazu veranlasst, diese Vereinheitlichung auf Videos auszudehnen. Die Kernherausforderung besteht darin, einen vielseitigen Video-Tokenizer zu entwickeln, der sowohl die räumlichen Merkmale als auch die zeitlichen Dynamiken von Videos erfasst, um Repräsentationen für LLMs zu erhalten, die wiederum in realistische Videoclips umgewandelt werden können, um die Videogenerierung zu ermöglichen. In dieser Arbeit stellen wir Divot vor, einen Video-Tokenizer mit Diffusionsantrieb, der den Diffusionsprozess für das selbstüberwachte Lernen von Video-Repräsentationen nutzt. Wir nehmen an, dass, wenn ein Video-Diffusionsmodell Videoclips effektiv durch Rauschunterdrückung bearbeiten kann, indem es die Merkmale eines Video-Tokenizer als Bedingung verwendet, der Tokenizer robuste räumliche und zeitliche Informationen erfolgreich erfasst hat. Darüber hinaus fungiert das Video-Diffusionsmodell inhärent als De-Tokenizer, der Videos aus ihren Repräsentationen decodiert. Aufbauend auf dem Divot-Tokenizer präsentieren wir Divot-Vicuna durch Video-zu-Text-Autoregression und Text-zu-Video-Erzeugung durch Modellierung der Verteilungen von kontinuierlich bewerteten Divot-Merkmalen mit einem Gaußschen Gemischmodell. Experimentelle Ergebnisse zeigen, dass unser auf Diffusion basierender Video-Tokenizer, wenn er mit einem vorab trainierten LLM integriert wird, eine wettbewerbsfähige Leistung in verschiedenen Videoverständnis- und -erzeugungs-Benchmarks erzielt. Der instruktionsabgestimmte Divot-Vicuna glänzt auch in der Videogeschichtenerzählung, indem er ineinandergreifende Erzählungen und entsprechende Videos generiert.
Aktuelle 3D-Generationsmodelle stützen sich in der Regel auf 3D-"Gold-Labels" in begrenztem Maßstab oder 2D-Diffusionsprioritäten für die Erstellung von 3D-Inhalten. Ihre Leistung ist jedoch durch begrenzte 3D-Prioritäten begrenzt, aufgrund des Mangels an skalierbaren Lernparadigmen. In dieser Arbeit präsentieren wir See3D, ein visuell bedingtes Multi-View-Diffusionsmodell, das auf groß angelegten Internetvideos für die Erstellung von 3D-Inhalten in einer offenen Welt trainiert wurde. Das Modell zielt darauf ab, 3D-Wissen zu erlangen, indem es ausschließlich die visuellen Inhalte aus den umfangreichen und schnell wachsenden Videodaten sieht - Du siehst es, du hast es. Um dies zu erreichen, skalieren wir zunächst die Trainingsdaten mithilfe eines vorgeschlagenen Datenkuratierungspipelines, die automatisch Mehrblick-Inkonsistenzen und unzureichende Beobachtungen aus den Quellvideos filtert. Dies führt zu einem hochwertigen, reichhaltig vielfältigen, groß angelegten Datensatz von Multi-View-Bildern, genannt WebVi3D, der 320 Millionen Frames aus 16 Millionen Videoclips enthält. Dennoch ist es nicht trivial, generische 3D-Prioritäten aus Videos ohne explizite 3D-Geometrie oder Kamerapositionsanmerkungen zu lernen, und die Annotierung von Posen für webbasierte Videos ist unerschwinglich teuer. Um die Notwendigkeit von Posenbedingungen zu beseitigen, führen wir ein innovatives visuelles Kondition - ein rein 2D-induktives visuelles Signal ein, das durch das Hinzufügen von zeitabhängigem Rauschen zu den maskierten Videodaten erzeugt wird. Schließlich stellen wir ein neuartiges visuell bedingtes 3D-Generationsframework vor, indem wir See3D in eine auf Verzerrungen basierende Pipeline für hochwertige 3D-Generierung integrieren. Unsere numerischen und visuellen Vergleiche bei Einzel- und spärlichen Rekonstruktionsbenchmarks zeigen, dass See3D, das auf kostengünstigen und skalierbaren Videodaten trainiert wurde, bemerkenswerte Zero-Shot- und Open-World-Generierungsfähigkeiten erreicht und Modelle übertrifft, die auf teuren und begrenzten 3D-Datensätzen trainiert wurden. Bitte besuchen Sie unsere Projektseite unter: https://vision.baai.ac.cn/see3d
Lineare Transformer haben als effiziente Alternativen zu Standard-Transformern an Bedeutung gewonnen, aber ihre Leistung bei Abruf- und Langkontextaufgaben war begrenzt. Um diese Einschränkungen zu beheben, haben aktuelle Arbeiten zwei unterschiedliche Mechanismen erforscht: Gating für adaptive Speichersteuerung und die Delta-Aktualisierungsregel für präzise Speichermodifikationen. Wir stellen fest, dass diese Mechanismen sich ergänzen: Gating ermöglicht schnelles Löschen von Speicher, während die Delta-Regel gezielte Aktualisierungen erleichtert. Basierend auf dieser Erkenntnis führen wir die gegliederte Delta-Regel ein und entwickeln einen parallelen Trainingsalgorithmus, der für moderne Hardware optimiert ist. Unsere vorgeschlagene Architektur, Gated DeltaNet, übertrifft konsistent bestehende Modelle wie Mamba2 und DeltaNet in mehreren Benchmarks, einschließlich Sprachmodellierung, Common-Sense-Argumentation, In-Context-Abruf, Längenextrapolation und Langkontextverständnis. Wir verbessern die Leistung weiter, indem wir Hybridarchitekturen entwickeln, die Gated DeltaNet-Schichten mit Schiebefenster-Aufmerksamkeit oder Mamba2-Schichten kombinieren und so sowohl die Trainingsleistung als auch die Aufgabenerfüllung verbessern.
In dieser Arbeit schlagen wir den ersten Ansatz für Bewegungsübertragung im Diffusionstransformer durch Mixture of Score Guidance (MSG) vor, ein theoretisch fundiertes Rahmenwerk für Bewegungsübertragung in Diffusionsmodellen. Unser wesentlicher theoretischer Beitrag liegt in der Neufassung des bedingten Scores zur Zerlegung des Bewegungsscores und des Inhaltscores in Diffusionsmodellen. Indem wir die Bewegungsübertragung als Mischung von potenziellen Energien formulieren, bewahrt MSG auf natürliche Weise die Szenenzusammensetzung und ermöglicht kreative Szenentransformationen, während die Integrität der übertragenen Bewegungsmuster erhalten bleibt. Dieses neuartige Sampling erfolgt direkt auf vorab trainierten Videodiffusionsmodellen ohne zusätzliches Training oder Feinabstimmung. Durch umfangreiche Experimente zeigt MSG erfolgreiches Handling verschiedener Szenarien, darunter die Übertragung von einzelnen Objekten, mehreren Objekten und die Übertragung von komplexen Kamerabewegungen zwischen Objekten. Darüber hinaus stellen wir MotionBench vor, den ersten Datensatz für Bewegungsübertragung, bestehend aus 200 Quellvideos und 1000 übertragenen Bewegungen, die einzelne/mehrere Objektübertragungen und komplexe Kamerabewegungen abdecken.
Mit den stetig wachsenden Mengen an Erdbeobachtungsdaten in den Archiven großer Programme wie Copernicus besteht ein zunehmender Bedarf an effizienten Vektorrepräsentationen der zugrunde liegenden Rohdaten. Der Ansatz, Merkmalsrepräsentationen aus vorab trainierten tiefen neuronalen Netzwerken zu extrahieren, ist ein leistungsstarker Ansatz, der semantische Abstraktionen der Eingabedaten liefern kann. Allerdings ist der Prozess für Bildarchive mit geografischen Daten noch nicht definiert. In dieser Arbeit wird eine Erweiterung für ein bestehendes Community-Projekt, Major TOM, vorgeschlagen, das sich auf die Bereitstellung und Standardisierung von offenen und kostenlosen KI-fähigen Datensätzen für die Erdbeobachtung konzentriert. Darüber hinaus werden vier globale und dichte Einbettungsdatensätze zusammen mit der Veröffentlichung dieses Manuskripts offen und kostenlos veröffentlicht, was zu dem umfassendsten globalen offenen Datensatz von geografischen visuellen Einbettungen in Bezug auf die abgedeckte Erdoberfläche führt.
In der robotergestützten visuomotorischen Richtlinienlernen haben diffusionsbasierte Modelle im Vergleich zu traditionellen autoregressiven Modellen signifikante Erfolge bei der Verbesserung der Genauigkeit der Aktionspfadgenerierung erzielt. Sie leiden jedoch unter Ineffizienz aufgrund mehrerer Rauschunterdrückungsschritte und begrenzter Flexibilität durch komplexe Einschränkungen. In diesem Artikel stellen wir Coarse-to-Fine AutoRegressive Policy (CARP) vor, ein neuartiges Paradigma für das visuomotorische Richtlinienlernen, das den autoregressiven Aktionsgenerierungsprozess als grob-zu-fein, nächstgrößen Ansatz neu definiert. CARP entkoppelt die Aktionsgenerierung in zwei Phasen: Zunächst lernt ein Aktionsautoencoder mehrskalige Repräsentationen der gesamten Aktionssequenz; dann verfeinert ein Transformer im GPT-Stil die Sequenzvorhersage durch einen grob-zu-fein autoregressiven Prozess. Dieser einfache und intuitive Ansatz erzeugt äußerst genaue und reibungslose Aktionen, die die Leistung diffusionsbasierter Richtlinien erreichen oder übertreffen, während die Effizienz auf dem Niveau autoregressiver Richtlinien bleibt. Wir führen umfangreiche Bewertungen in verschiedenen Umgebungen durch, einschließlich Einzelaufgaben- und Mehrfachaufgaben-Szenarien in zustandsbasierten und bildbasierten Simulationsbenchmarks sowie realen Aufgaben. CARP erzielt wettbewerbsfähige Erfolgsraten mit einer Verbesserung von bis zu 10% und bietet im Vergleich zu modernsten Richtlinien eine 10-fach schnellere Inferenz, was ein leistungsstarkes, effizientes und flexibles Paradigma für die Aktionsgenerierung in robotergestützten Aufgaben etabliert.
Wir präsentieren ein neuartiges Erscheinungsmodell, das gleichzeitig die explizite hochwertige 3D-Oberflächenmaschenwiederherstellung und fotorealistische Synthese neuer Ansichten aus spärlichen Ansichtsproben realisiert. Unsere Schlüsselidee besteht darin, die zugrunde liegende Szenengeometrie Mesh als Atlas von Karten zu modellieren, die wir mit 2D-Gaußschen Surfel (MAtCha-Gaußschen) rendern. MAtCha destilliert hochfrequente Oberflächendetails der Szene aus einem handelsüblichen monokularen Tiefenschätzer und verfeinert sie durch Gaußsches Surfel-Rendering. Die Gaußschen Surfels werden dynamisch den Karten zugeordnet, um den Fotorealismus des neuronalen volumetrischen Renderings und die klare Geometrie eines Maschenmodells zu erfüllen, d. h. zwei scheinbar widersprüchliche Ziele in einem einzigen Modell. Im Kern von MAtCha liegt ein neuartiges neuronales Deformationsmodell und ein Strukturverlust, der die feinen Oberflächendetails bewahrt, die aus gelernten monokularen Tiefen destilliert wurden, während ihre grundlegenden Skalenambiguitäten angegangen werden. Die Ergebnisse umfangreicher experimenteller Validierung zeigen die hochmoderne Qualität der Oberflächenrekonstruktion und des Fotorealismus von MAtCha auf Augenhöhe mit den besten Konkurrenten, jedoch mit dramatischer Reduzierung der Anzahl von Eingangsansichten und der Rechenzeit. Wir sind der Ansicht, dass MAtCha als grundlegendes Werkzeug für jede visuelle Anwendung in den Bereichen Vision, Grafik und Robotik dienen wird, die explizite Geometrie neben Fotorealismus erfordern. Unsere Projektseite ist die folgende: https://anttwo.github.io/matcha/
Wir schlagen ein unmerkliches Mehrbit-Text-Wasserzeichen vor, das durch Umschreiben mit LLMs eingebettet wird. Wir feinabstimmen ein Paar LLM-Umschreiber, die so konzipiert sind, dass sie sich unterschiedlich verhalten, so dass ihre Umschreibungsunterschiede, die sich in der Textsemantik widerspiegeln, von einem trainierten Decoder identifiziert werden können. Um unser Mehrbit-Wasserzeichen einzubetten, verwenden wir abwechselnd zwei Umschreiber, um den vordefinierten Binärcode auf Satzebene zu codieren. Anschließend verwenden wir einen Textklassifizierer als Decoder, um jedes Bit des Wasserzeichens zu entschlüsseln. Durch umfangreiche Experimente zeigen wir, dass unsere Wasserzeichen mit kleinen (1,1B) Text-Umschreibern über 99,99\% Erkennungs-AUC erreichen können, während die semantischen Informationen des ursprünglichen Satzes erhalten bleiben. Darüber hinaus ist unsere Pipeline robust gegen Wortersetzungen und Satzumschreibungen und generalisiert gut auf Daten außerhalb der Verteilung. Wir zeigen auch die Verdecktheit unseres Wasserzeichens mit LLM-basierter Bewertung. Wir stellen den Code Open Source zur Verfügung: https://github.com/xiaojunxu/multi-bit-text-watermark.
Die Zusammenführung von Modellen hat großes Potenzial gezeigt, Expertenmodelle zu kombinieren, aber der Nutzen der Zusammenführung ist unklar, wenn "Generalisten"-Modelle zusammengeführt werden, die auf vielen Aufgaben trainiert wurden. Wir untersuchen die Zusammenführung im Kontext großer (ca. 100 Mrd.) Modelle, indem wir Checkpoints wiederverwenden, die Kompromisse zwischen verschiedenen Aufgaben aufweisen. Solche Checkpoints werden oft im Prozess der Entwicklung eines Spitzenmodells erstellt, und viele suboptimale werden in der Regel verworfen. Angesichts eines Pools von Modell-Checkpoints, die aus verschiedenen Trainingsläufen stammen (z. B. verschiedene Stufen, Ziele, Hyperparameter und Datengemische) und die natürlicherweise Kompromisse bei verschiedenen Sprachfähigkeiten aufzeigen (z. B. Anweisungen befolgen vs. Code-Generierung), untersuchen wir, ob durch Zusammenführung solche suboptimalen Modelle in ein Pareto-optimales Modell recycelt werden können. Unser Optimierungsalgorithmus stimmt das Gewicht jedes Checkpoints in einer linearen Kombination ab, was zu Pareto-optimalen Modellen führt, die sowohl einzelne Modelle als auch merge-basierte Baselines übertreffen. Eine weitere Analyse zeigt, dass gute Zusammenführungen dazu neigen, fast alle Checkpoints mit nicht-null Gewichten einzuschließen, was darauf hindeutet, dass selbst scheinbar schlechte anfängliche Checkpoints zu guten endgültigen Zusammenführungen beitragen können.
Wir präsentieren Turbo3D, ein ultraschnelles Text-in-3D-System, das in der Lage ist, hochwertige Gauss'sche Splatting-Assets in weniger als einer Sekunde zu generieren. Turbo3D verwendet einen schnellen 4-Schritt-, 4-Ansichts-Diffusionsgenerator und einen effizienten Feedforward-Gauß'schen Rekonstrukteur, die beide im latenten Raum arbeiten. Der 4-Schritt-, 4-Ansichts-Generator ist ein Schülermodell, das durch einen neuartigen Dual-Lehrer-Ansatz destilliert wurde, der den Schüler dazu ermutigt, Ansichtskonsistenz von einem Multi-Ansichts-Lehrer und Fotorealismus von einem Einzel-Ansichts-Lehrer zu erlernen. Durch die Verschiebung der Eingaben des Gauß'schen Rekonstrukteurs vom Pixelraum in den latenten Raum eliminieren wir die zusätzliche Bilddecodierungszeit und halbieren die Transformatorsequenzlänge für maximale Effizienz. Unsere Methode zeigt überlegene 3D-Generierungsergebnisse im Vergleich zu früheren Baselines, während sie in einem Bruchteil ihrer Laufzeit arbeitet.