Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz des rasanten Wachstums der Forschung im Bereich des maschinellen Lernens sind entsprechende Code-Implementierungen oft nicht verfügbar, was es für Forscher langsam und arbeitsintensiv macht, Ergebnisse zu reproduzieren und auf früheren Arbeiten aufzubauen. In der Zwischenzeit zeichnen sich aktuelle Large Language Models (LLMs) durch ihre Fähigkeit aus, wissenschaftliche Dokumente zu verstehen und hochwertigen Code zu generieren. Inspiriert davon stellen wir PaperCoder vor, ein Multi-Agenten-LLM-Framework, das maschinelle Lernpapiere in funktionale Code-Repositories umwandelt. PaperCoder arbeitet in drei Phasen: Planung, in der es einen hochrangigen Fahrplan erstellt, die Systemarchitektur mit Diagrammen entwirft, Dateiabhängigkeiten identifiziert und Konfigurationsdateien generiert; Analyse, die sich auf die Interpretation implementierungsspezifischer Details konzentriert; und Generierung, in der modularer, abhängigkeitsbewusster Code erzeugt wird. Darüber hinaus wird jede Phase durch eine Reihe spezialisierter Agenten instanziiert, die darauf ausgelegt sind, effektiv über die Pipeline hinweg zusammenzuarbeiten. Wir bewerten PaperCoder dann anhand der Generierung von Code-Implementierungen aus maschinellen Lernpapieren basierend auf sowohl modellbasierten als auch menschlichen Bewertungen, insbesondere von den ursprünglichen Autoren der Papiere, wobei von Autoren veröffentlichte Repositories als Grundwahrheit dienen, sofern verfügbar. Unsere Ergebnisse demonstrieren die Effektivität von PaperCoder bei der Erstellung hochwertiger, treuer Implementierungen. Darüber hinaus zeigt es durchgehend Stärken im kürzlich veröffentlichten PaperBench-Benchmark und übertrifft starke Baselines mit erheblichen Abständen.
In den letzten Jahren haben Bildbearbeitungsmodelle eine bemerkenswerte und rasante Entwicklung erfahren. Die jüngste Vorstellung von wegweisenden multimodalen Modellen wie GPT-4o und Gemini2 Flash hat vielversprechende Bildbearbeitungsfähigkeiten eingeführt. Diese Modelle zeigen eine beeindruckende Fähigkeit, die überwiegende Mehrheit der benutzergetriebenen Bearbeitungsanforderungen zu erfüllen, was einen bedeutenden Fortschritt im Bereich der Bildmanipulation darstellt. Dennoch besteht eine große Lücke zwischen Open-Source-Algorithmen und diesen proprietären Modellen. Daher zielen wir in diesem Artikel darauf ab, ein modernstes Bildbearbeitungsmodell namens Step1X-Edit zu veröffentlichen, das eine vergleichbare Leistung zu proprietären Modellen wie GPT-4o und Gemini2 Flash bietet. Genauer gesagt verwenden wir ein multimodales LLM, um das Referenzbild und die Bearbeitungsanweisungen des Benutzers zu verarbeiten. Eine latente Einbettung wurde extrahiert und mit einem Diffusionsbilddecoder kombiniert, um das Zielbild zu erzeugen. Um das Modell zu trainieren, haben wir eine Datenpipeline entwickelt, um einen hochwertigen Datensatz zu erstellen. Für die Bewertung haben wir GEdit-Bench entwickelt, einen neuartigen Benchmark, der auf realen Benutzeranweisungen basiert. Die experimentellen Ergebnisse auf GEdit-Bench zeigen, dass Step1X-Edit die bestehenden Open-Source-Baselines deutlich übertrifft und sich der Leistung führender proprietärer Modelle annähert, wodurch es einen bedeutenden Beitrag zum Bereich der Bildbearbeitung leistet.
Die subjektgesteuerte Text-zu-Bild (T2I)-Generierung zielt darauf ab, Bilder zu erzeugen, die mit einer gegebenen Textbeschreibung übereinstimmen, während die visuelle Identität eines Referenzbildes beibehalten wird. Trotz der breiten Anwendungsmöglichkeiten – von verbesserter Personalisierung in der Bildgenerierung bis hin zu konsistenter Charakterdarstellung in der Videowiedergabe – wird der Fortschritt in diesem Bereich durch den Mangel an zuverlässiger automatischer Bewertung eingeschränkt. Bestehende Methoden bewerten entweder nur einen Aspekt der Aufgabe (d.h. Textausrichtung oder Subjekterhaltung), stimmen nicht mit menschlichen Urteilen überein oder stützen sich auf kostspielige API-basierte Bewertungen. Um dies zu beheben, führen wir RefVNLI ein, eine kosteneffiziente Metrik, die sowohl die Textausrichtung als auch die Subjekterhaltung in einer einzigen Vorhersage bewertet. RefVNLI, das auf einem groß angelegten Datensatz basiert, der aus Video-Ressourcen-Benchmarks und Bildstörungen abgeleitet wurde, übertrifft oder erreicht bestehende Baselines über mehrere Benchmarks und Subjektkategorien hinweg (z.B. Tier, Objekt) und erzielt Verbesserungen von bis zu 6,4 Punkten in der Textausrichtung und 8,5 Punkten in der Subjektkonsistenz. Es zeichnet sich auch bei weniger bekannten Konzepten aus und stimmt mit menschlichen Präferenzen mit einer Genauigkeit von über 87 % überein.
Das Contrastive Language-Image Pre-training (CLIP)-Framework hat sich zu einem weit verbreiteten Ansatz für multimodales Repräsentationslernen entwickelt, insbesondere in den Bereichen Bild-Text-Retrieval und Clustering. Seine Wirksamkeit wird jedoch durch drei wesentliche Einschränkungen begrenzt: (1) Text-Token-Trunkierung, (2) isolierte Bild-Text-Kodierung und (3) mangelnde Kompositionalität aufgrund von Bag-of-Words-Verhalten. Während neuere Multimodale Large Language Models (MLLMs) bedeutende Fortschritte im generalisierten Verständnis von Vision und Sprache gezeigt haben, bleibt ihr Potenzial für das Lernen übertragbarer multimodaler Repräsentationen weitgehend unerforscht. In dieser Arbeit präsentieren wir UniME (Universal Multimodal Embedding), ein neuartiges zweistufiges Framework, das MLLMs nutzt, um diskriminative Repräsentationen für verschiedene Downstream-Aufgaben zu lernen. In der ersten Stufe führen wir eine textuelle diskriminative Wissensdistillation von einem leistungsstarken LLM-basierten Lehrermodell durch, um die Einbettungsfähigkeit der Sprachkomponente des MLLMs zu verbessern. In der zweiten Stufe führen wir ein Hard-Negative-Enhanced Instruction Tuning ein, um das diskriminative Repräsentationslernen weiter voranzutreiben. Konkret mildern wir zunächst die Kontamination durch falsche Negative und sampeln dann mehrere harte Negative pro Instanz innerhalb jedes Batches, wodurch das Modell gezwungen wird, sich auf anspruchsvolle Beispiele zu konzentrieren. Dieser Ansatz verbessert nicht nur die diskriminative Kraft, sondern steigert auch die Fähigkeit zur Befolgung von Anweisungen in Downstream-Aufgaben. Wir führen umfangreiche Experimente auf dem MMEB-Benchmark und mehreren Retrieval-Aufgaben durch, darunter die Retrieval von kurzen und langen Bildunterschriften sowie die kompositionelle Retrieval. Die Ergebnisse zeigen, dass UniME durchweg Leistungsverbesserungen über alle Aufgaben hinweg erzielt und überlegene diskriminative und kompositionelle Fähigkeiten aufweist.
Wir präsentieren ein Framework für perspektivenbewusstes Denken in Vision-Sprache-Modellen (VLMs) durch die Simulation mentaler Bilder. Perspektivenübernahme, die Fähigkeit, eine Umgebung oder Situation aus einem alternativen Blickwinkel wahrzunehmen, ist ein zentraler Maßstab für menschenähnliches visuelles Verständnis, das für die Interaktion mit der Umwelt und die Zusammenarbeit mit autonomen Agenten unerlässlich ist. Trotz Fortschritten im Bereich des räumlichen Denkens in VLMs hat die jüngste Forschung gezeigt, dass moderne VLMs erheblich an perspektivenbewussten Denkfähigkeiten mangeln und eine starke Tendenz zu egozentrischen Interpretationen aufweisen. Um die Lücke zwischen VLMs und menschlicher Wahrnehmung zu schließen, konzentrieren wir uns auf die Rolle mentaler Bilder, bei denen Menschen die Welt durch abstrahierte Darstellungen wahrnehmen, die Perspektivwechsel erleichtern. Motiviert durch diese Erkenntnis schlagen wir ein Framework für perspektivenbewusstes Denken vor, genannt Abstract Perspective Change (APC), das Vision-Foundation-Modelle wie Objekterkennung, Segmentierung und Orientierungsschätzung effektiv nutzt, um Szenenabstraktionen zu konstruieren und Perspektivtransformationen zu ermöglichen. Unsere Experimente auf synthetischen und realen Bild-Benchmarks, im Vergleich mit verschiedenen VLMs, zeigen signifikante Verbesserungen im perspektivenbewussten Denken durch unser Framework, das darüber hinaus feinabgestimmte räumliche Denkmodelle und neuartige Ansätze auf Basis der Synthese neuer Ansichten übertrifft.
Mit der Verfügbarkeit groß angelegter 3D-Datensätze haben vorwärtsgerichtete 3D-Generierungsmodelle, wie das Large Reconstruction Model (LRM), erhebliche Aufmerksamkeit erlangt und bemerkenswerte Erfolge erzielt. Wir beobachten jedoch, dass RGB-Bilder oft zu widersprüchlichen Trainingszielen führen und die notwendige Klarheit für die Geometrierekonstruktion fehlt. In diesem Beitrag untersuchen wir die induktiven Verzerrungen im Zusammenhang mit der Mesh-Rekonstruktion und stellen DiMeR vor, ein neuartiges, entkoppeltes dual-stream vorwärtsgerichtetes Modell für die Rekonstruktion von Meshes aus spärlichen Ansichten. Die zentrale Idee besteht darin, sowohl die Eingabe als auch das Framework in Geometrie- und Texturteile zu entkoppeln, wodurch die Trainingsschwierigkeit für jeden Teil gemäß dem Prinzip von Occam's Razor reduziert wird. Da Normalmaps streng konsistent mit der Geometrie sind und Oberflächenvariationen präzise erfassen, verwenden wir Normalmaps als exklusive Eingabe für den Geometriezweig, um die Komplexität zwischen der Eingabe und der Ausgabe des Netzwerks zu verringern. Darüber hinaus verbessern wir den Mesh-Extraktionsalgorithmus, um eine 3D-Ground-Truth-Supervision einzuführen. Für den Texturzweig verwenden wir RGB-Bilder als Eingabe, um das texturierte Mesh zu erhalten. Insgesamt zeigt DiMeR robuste Fähigkeiten in verschiedenen Aufgaben, einschließlich der Rekonstruktion aus spärlichen Ansichten, der Einzelbild-zu-3D- und der Text-zu-3D-Rekonstruktion. Zahlreiche Experimente zeigen, dass DiMeR frühere Methoden deutlich übertrifft und eine Verbesserung von über 30 % in der Chamfer-Distanz auf den Datensätzen GSO und OmniObject3D erreicht.
Autoregressive (AR) Modelle, die lange Zeit in der Sprachgenerierung dominierten, werden zunehmend auch in der Bildsynthese eingesetzt, gelten jedoch oft als weniger wettbewerbsfähig als Diffusionsbasierte Modelle. Eine wesentliche Einschränkung ist die erhebliche Anzahl von Bild-Tokens, die AR-Modelle benötigen, was sowohl die Trainings- als auch die Inferenzeffizienz sowie die Bildauflösung beeinträchtigt. Um dies zu adressieren, präsentieren wir Token-Shuffle, eine neuartige, aber einfache Methode, die die Anzahl der Bild-Tokens in Transformern reduziert. Unser zentraler Ansatz ist die dimensionale Redundanz visueller Vokabulare in Multimodalen Großen Sprachmodellen (MLLMs), bei denen niedrigdimensionale visuelle Codes aus dem visuellen Encoder direkt auf hochdimensionale Sprachvokabulare abgebildet werden. Dies nutzend, betrachten wir zwei Schlüsseloperationen: Token-Shuffle, das räumlich lokale Tokens entlang der Kanaldimension zusammenführt, um die Anzahl der Eingabe-Tokens zu verringern, und Token-Unshuffle, das die abgeleiteten Tokens nach den Transformer-Blöcken entwirrt, um die räumliche Anordnung für die Ausgabe wiederherzustellen. Gemeinsam mit textuellen Prompts trainiert, erfordert unsere Strategie keinen zusätzlich vortrainierten Text-Encoder und ermöglicht es MLLMs, extrem hochauflösende Bildsynthese in einer einheitlichen nächsten-Token-Vorhersageweise zu unterstützen, während effizientes Training und Inferenz gewährleistet bleiben. Zum ersten Mal erweitern wir die Grenzen der AR-Text-zu-Bild-Generierung auf eine Auflösung von 2048x2048 mit überzeugender Generierungsleistung. Im GenAI-Benchmark erreicht unser 2,7B-Modell eine Gesamtpunktzahl von 0,77 bei schwierigen Prompts, womit es AR-Modelle wie LlamaGen um 0,18 und Diffusionsmodelle wie LDM um 0,15 übertrifft. Umfangreiche groß angelegte menschliche Bewertungen demonstrieren ebenfalls unsere herausragende Bildgenerierungsfähigkeit in Bezug auf Textausrichtung, visuelle Fehler und visuelles Erscheinungsbild. Wir hoffen, dass Token-Shuffle als grundlegendes Design für effiziente hochauflösende Bildgenerierung innerhalb von MLLMs dienen kann.
Qualität und Diversität sind zwei entscheidende Metriken für die Trainingsdaten von großen Sprachmodellen (LLMs), die sich positiv auf die Leistung auswirken. Bestehende Studien optimieren diese Metriken oft separat, typischerweise durch eine zunächst angewandte Qualitätsfilterung und anschließende Anpassung der Datenanteile. Diese Ansätze übersehen jedoch den inhärenten Zielkonflikt zwischen Qualität und Diversität, was eine gemeinsame Betrachtung erforderlich macht. Bei einem festen Trainingskontingent ist es essenziell, sowohl die Qualität jedes Datenpunkts als auch dessen komplementären Effekt auf den Gesamtdatensatz zu bewerten. In diesem Artikel stellen wir ein einheitliches Datenauswahlframework namens QuaDMix vor, das die Datenverteilung für das Pretraining von LLMs automatisch optimiert und dabei sowohl Qualität als auch Diversität ausbalanciert. Konkret schlagen wir zunächst mehrere Kriterien zur Messung der Datenqualität vor und verwenden Domänenklassifikation, um Datenpunkte zu unterscheiden und so die Gesamtdiversität zu messen. QuaDMix nutzt dann eine einheitliche parametrisierte Datenstichprobenfunktion, die die Stichprobenwahrscheinlichkeit jedes Datenpunkts basierend auf diesen Qualitäts- und Diversitätskennzeichnungen bestimmt. Um die Suche nach den optimalen Parametern im QuaDMix-Framework zu beschleunigen, führen wir Simulationsexperimente an kleineren Modellen durch und verwenden LightGBM für die Parametersuche, inspiriert durch die RegMix-Methode. Unsere Experimente über verschiedene Modelle und Datensätze hinweg zeigen, dass QuaDMix eine durchschnittliche Leistungssteigerung von 7,2 % über mehrere Benchmarks hinweg erzielt. Diese Ergebnisse übertreffen die unabhängigen Strategien für Qualität und Diversität und unterstreichen die Notwendigkeit und Fähigkeit, Datenqualität und Diversität auszubalancieren.
Video Try-on ersetzt Kleidung in Videos durch Zielbekleidung. Bestehende Methoden haben Schwierigkeiten, qualitativ hochwertige und zeitlich konsistente Ergebnisse zu erzeugen, insbesondere bei der Handhabung komplexer Kleidungsmuster und vielfältiger Körperposen. Wir präsentieren 3DV-TON, ein neuartiges, diffusionsbasiertes Framework zur Erzeugung von hochauflösenden und zeitlich konsistenten Video-Try-on-Ergebnissen. Unser Ansatz nutzt generierte animierbare texturierte 3D-Meshes als explizite Frame-Level-Anleitung, wodurch das Problem gelöst wird, dass Modelle zu stark auf die Erscheinungsfidelität auf Kosten der Bewegungskohärenz fokussieren. Dies wird erreicht, indem ein direkter Bezug auf konsistente Texturbewegungen der Kleidung über die gesamte Videosequenz ermöglicht wird. Die vorgeschlagene Methode verfügt über eine adaptive Pipeline zur Erzeugung dynamischer 3D-Anleitungen: (1) Auswahl eines Keyframes für das initiale 2D-Bild-Try-on, gefolgt von (2) der Rekonstruktion und Animation eines texturierten 3D-Meshes, das mit den ursprünglichen Videoposen synchronisiert ist. Wir führen außerdem eine robuste rechteckige Maskierungsstrategie ein, die erfolgreich die Ausbreitung von Artefakten verhindert, die durch das Durchsickern von Kleidungsinformationen während dynamischer menschlicher und Kleidungsbewegungen verursacht werden. Um die Forschung im Bereich Video-Try-on voranzutreiben, stellen wir HR-VVT vor, einen hochauflösenden Benchmark-Datensatz, der 130 Videos mit verschiedenen Kleidungstypen und Szenarien enthält. Quantitative und qualitative Ergebnisse demonstrieren unsere überlegene Leistung gegenüber bestehenden Methoden. Die Projektseite ist unter diesem Link verfügbar: https://2y7c3.github.io/3DV-TON/
Schritt-für-Schritt-Verifizierer – auch bekannt als Prozess-Belohnungsmodelle (PRMs) – sind ein Schlüsselelement für die Skalierung zur Testzeit. PRMs benötigen eine schrittweise Überwachung, was sie teuer in der Ausbildung macht. Diese Arbeit zielt darauf ab, dateneffiziente PRMs als verbalisierte schrittweise Belohnungsmodelle zu entwickeln, die jeden Schritt in der Lösung durch die Erzeugung einer Verifikations-Kette von Gedanken (CoT) überprüfen. Wir schlagen ThinkPRM vor, einen langen CoT-Verifizierer, der mit einer Größenordnung weniger Prozesslabels feinabgestimmt wird als diejenigen, die von diskriminativen PRMs benötigt werden. Unser Ansatz nutzt die inhärenten Fähigkeiten zur logischen Schlussfolgerung von langen CoT-Modellen und übertrifft LLM-as-a-Judge und diskriminative Verifizierer – unter Verwendung von nur 1 % der Prozesslabels in PRM800K – in mehreren anspruchsvollen Benchmarks. Insbesondere schlägt ThinkPRM die Baselines in ProcessBench, MATH-500 und AIME '24 unter Best-of-N-Auswahl und belohnungsgesteuerter Suche. In einer Out-of-Domain-Evaluierung auf einer Teilmenge von GPQA-Diamond und LiveCodeBench übertrifft unser PRM diskriminative Verifizierer, die auf dem vollständigen PRM800K trainiert wurden, um 8 % bzw. 4,5 %. Schließlich skaliert ThinkPRM unter demselben Token-Budget die Verifikationsrechenleistung effektiver im Vergleich zu LLM-as-a-Judge und übertrifft es um 7,2 % auf einer Teilmenge von ProcessBench. Unsere Arbeit unterstreicht den Wert von generativen, langen CoT-PRMs, die die Rechenleistung zur Testzeit für die Verifikation skalieren können, während sie nur minimale Überwachung für das Training benötigen. Unser Code, Daten und Modelle werden unter https://github.com/mukhal/thinkprm veröffentlicht.
Latent-Diffusionsmodelle (LDMs) dominieren die hochwertige Bildgenerierung, doch die Integration von Repräsentationslernen mit generativer Modellierung bleibt eine Herausforderung. Wir stellen ein neuartiges Framework für die generative Bildmodellierung vor, das diese Lücke nahtlos schließt, indem es ein Diffusionsmodell nutzt, um sowohl niedrigdimensionale Bildlatenten (aus einem variationalen Autoencoder) als auch hochdimensionale semantische Merkmale (aus einem vortrainierten, selbstüberwachten Encoder wie DINO) gemeinsam zu modellieren. Unser latent-semantischer Diffusionsansatz lernt, kohärente Bild-Merkmal-Paare aus reinem Rauschen zu generieren, was sowohl die generative Qualität als auch die Trainings effizienz erheblich verbessert, während nur minimale Anpassungen an standardmäßige Diffusion-Transformer-Architekturen erforderlich sind. Durch den Verzicht auf komplexe Destillationsziele vereinfacht unser einheitliches Design das Training und ermöglicht eine leistungsstarke neue Inferenzstrategie: Representation Guidance, die gelernte Semantik nutzt, um die Bildgenerierung zu steuern und zu verfeinern. Sowohl in bedingten als auch unbedingten Szenarien evaluiert, liefert unsere Methode erhebliche Verbesserungen in der Bildqualität und der Trainingskonvergenzgeschwindigkeit und etabliert damit eine neue Richtung für repräsentationsbewusste generative Modellierung.
Wir stellen DyMU vor, ein effizientes, trainingsfreies Framework, das die Rechenlast von Vision-Language-Modellen (VLMs) dynamisch reduziert, während gleichzeitig eine hohe Aufgabenleistung aufrechterhalten wird. Unser Ansatz umfasst zwei Schlüsselkomponenten. Erstens reduziert Dynamic Token Merging (DToMe) die Anzahl der visuellen Token-Embeddings, indem ähnliche Token basierend auf der Bildkomplexität zusammengeführt werden, wodurch die inhärente Ineffizienz von festen Ausgabelängen in Vision-Transformern adressiert wird. Zweitens simuliert Virtual Token Unmerging (VTU) die erwartete Token-Sequenz für große Sprachmodelle (LLMs), indem effizient die Aufmerksamkeitsdynamik einer vollständigen Sequenz rekonstruiert wird, wodurch die nachgelagerte Leistung ohne zusätzliches Fine-Tuning erhalten bleibt. Im Gegensatz zu früheren Ansätzen passt unsere Methode die Token-Kompression dynamisch an den Bildinhalt an und arbeitet vollständig trainingsfrei, was sie leicht auf die meisten state-of-the-art VLM-Architekturen anwendbar macht. Umfangreiche Experimente zu Bild- und Video-Verständnisaufgaben zeigen, dass DyMU die durchschnittliche Anzahl visueller Token um 32%-85% reduzieren kann, während es eine vergleichbare Leistung zu Modellen mit vollständiger Token-Länge über diverse VLM-Architekturen hinweg erreicht, einschließlich der kürzlich populär gewordenen AnyRes-basierten visuellen Encoder. Darüber hinaus demonstrieren wir durch qualitative Analysen, dass DToMe die Token-Reduktion effektiv an die Bildkomplexität anpasst und im Gegensatz zu bestehenden Systemen den Benutzern mehr Kontrolle über die Rechenkosten bietet. Projektseite: https://mikewangwzhl.github.io/dymu/.
Das rasante Wachstum von Online-Videoplattformen, insbesondere Live-Streaming-Diensten, hat einen dringenden Bedarf an Echtzeit-Videoanalyse-Systemen geschaffen. Diese Systeme müssen kontinuierliche Videoströme verarbeiten und sofort auf Benutzeranfragen reagieren, was einzigartige Herausforderungen für aktuelle Video Large Language Models (VideoLLMs) darstellt. Während bestehende VideoLLMs bei der Verarbeitung vollständiger Videos hervorragend abschneiden, stoßen sie in Streaming-Szenarien aufgrund ihrer Unfähigkeit, dichte, redundante Frames effizient zu verarbeiten, auf erhebliche Einschränkungen. Wir stellen TimeChat-Online vor, ein neuartiges Online-VideoLLM, das die Echtzeit-Videointeraktion revolutioniert. Im Kern liegt unser innovatives Differential Token Drop (DTD)-Modul, das die grundlegende Herausforderung der visuellen Redundanz in Streaming-Videos adressiert. Inspiriert vom Phänomen der Change Blindness in der menschlichen visuellen Wahrnehmung, bewahrt DTD bedeutungsvolle zeitliche Veränderungen und filtert statische, redundante Inhalte zwischen den Frames heraus. Bemerkenswerterweise zeigen unsere Experimente, dass DTD eine Reduktion der Video-Tokens um 82,8 % erreicht, während 98 % der Leistung auf StreamingBench erhalten bleiben, was offenbart, dass über 80 % des visuellen Inhalts in Streaming-Videos natürlich redundant sind, ohne sprachliche Anleitung zu benötigen. Um nahtlose Echtzeit-Interaktion zu ermöglichen, präsentieren wir TimeChat-Online-139K, einen umfassenden Streaming-Video-Datensatz mit diversen Interaktionsmustern, darunter Rückwärtsverfolgung, aktuelle Wahrnehmung und zukunftsorientierte Reaktionsszenarien. Die einzigartige Proaktive Reaktionsfähigkeit von TimeChat-Online, die durch die kontinuierliche Überwachung von Videoszenenübergängen via DTD natürlich erreicht wird, unterscheidet es von konventionellen Ansätzen. Unsere umfangreiche Evaluation zeigt die überlegene Leistung von TimeChat-Online auf Streaming-Benchmarks (StreamingBench und OvOBench) und die Beibehaltung wettbewerbsfähiger Ergebnisse bei langen Videoaufgaben wie Video-MME und MLVU.
Große Sprachmodelle (LLMs) bleiben schwierig umfassend zu bewerten, insbesondere für Sprachen außer Englisch, wo hochwertige Daten oft begrenzt sind. Bestehende Benchmarks und Ranglisten sind überwiegend englischzentriert, wobei nur wenige andere Sprachen berücksichtigen. Diese Benchmarks weisen mehrere wesentliche Mängel auf: Sie übersehen die Vielfalt der Sprachvarianten, priorisieren grundlegende Fähigkeiten der natürlichen Sprachverarbeitung (NLP) gegenüber industriell relevanten Aufgaben und sind statisch. Vor diesem Hintergrund präsentieren wir IberBench, einen umfassenden und erweiterbaren Benchmark, der darauf abzielt, die Leistung von LLMs sowohl bei grundlegenden als auch industriell relevanten NLP-Aufgaben in den Sprachen der Iberischen Halbinsel und Ibero-Amerikas zu bewerten. IberBench integriert 101 Datensätze aus Evaluationskampagnen und aktuellen Benchmarks, die 22 Aufgabenkategorien wie Sentiment- und Emotionsanalyse, Toxizitätserkennung und Zusammenfassung abdecken. Der Benchmark adressiert zentrale Schwächen aktueller Evaluationspraktiken, wie den Mangel an linguistischer Vielfalt und statischen Evaluationsaufbauten, indem er kontinuierliche Aktualisierungen und community-gesteuerte Einreichungen von Modellen und Datensätzen ermöglicht, die von einem Expertengremium moderiert werden. Wir evaluieren 23 LLMs mit einer Bandbreite von 100 Millionen bis 14 Milliarden Parametern und liefern empirische Einblicke in ihre Stärken und Schwächen. Unsere Ergebnisse zeigen, dass (i) LLMs bei industriell relevanten Aufgaben schlechter abschneiden als bei grundlegenden, (ii) die Leistung im Durchschnitt für Galicisch und Baskisch niedriger ist, (iii) einige Aufgaben Ergebnisse nahe dem Zufall zeigen und (iv) bei anderen Aufgaben LLMs über dem Zufall, aber unter den Systemen von gemeinsamen Aufgaben liegen. IberBench bietet Open-Source-Implementierungen für die gesamte Evaluationspipeline, einschließlich der Normalisierung und Bereitstellung von Datensätzen, der inkrementellen Bewertung von LLMs und einer öffentlich zugänglichen Rangliste.
Wir stellen ViSMap vor: Unsupervised Video Summarisation by Meta Prompting, ein System zur Zusammenfassung von stundenlangen Videos ohne Aufsicht. Die meisten bestehenden Modelle zur Videoverarbeitung funktionieren gut bei kurzen Videos von vorsortierten Ereignissen, haben jedoch Schwierigkeiten, längere Videos zusammenzufassen, in denen relevante Ereignisse spärlich verteilt und nicht vorsortiert sind. Darüber hinaus stützt sich das Verständnis von langen Videos oft auf überwachtes hierarchisches Training, das umfangreiche Annotationen erfordert, die kostspielig, langsam und anfällig für Inkonsistenzen sind. Mit ViSMaP schließen wir die Lücke zwischen kurzen Videos (bei denen annotierte Daten reichlich vorhanden sind) und langen Videos (bei denen dies nicht der Fall ist). Wir verlassen uns auf LLMs (Large Language Models), um optimierte Pseudozusammenfassungen von langen Videos mithilfe von Segmentbeschreibungen aus kurzen Videos zu erstellen. Diese Pseudozusammenfassungen werden als Trainingsdaten für ein Modell verwendet, das Zusammenfassungen von langen Videos generiert, wodurch der Bedarf an teuren Annotationen von langen Videos umgangen wird. Insbesondere verwenden wir eine Meta-Prompting-Strategie, um iterativ Pseudozusammenfassungen von langen Videos zu generieren und zu verfeinern. Die Strategie nutzt Beschreibungen von kurzen Clips, die von einem überwachten Modell für kurze Videos erhalten wurden, um die Zusammenfassung zu leiten. Jede Iteration verwendet drei LLMs, die nacheinander arbeiten: eines zur Generierung der Pseudozusammenfassung aus Clip-Beschreibungen, ein weiteres zur Bewertung und ein drittes zur Optimierung des Prompts des Generators. Diese Iteration ist notwendig, da die Qualität der Pseudozusammenfassungen stark vom Generator-Prompt abhängt und zwischen den Videos stark variiert. Wir bewerten unsere Zusammenfassungen umfassend auf mehreren Datensätzen; unsere Ergebnisse zeigen, dass ViSMaP eine Leistung erzielt, die mit vollständig überwachten State-of-the-Art-Modellen vergleichbar ist, während es domänenübergreifend generalisiert, ohne die Leistung zu beeinträchtigen. Der Code wird bei Veröffentlichung freigegeben.
Autoregressive, patch-basierte Bildgenerierung hat kürzlich wettbewerbsfähige Ergebnisse in Bezug auf Bildqualität und Skalierbarkeit gezeigt. Sie kann auch einfach in Vision-Language-Modelle integriert und skaliert werden. Dennoch erfordern autoregressive Modelle eine definierte Reihenfolge für die Patch-Generierung. Während eine natürliche Reihenfolge, die auf der Diktion der Wörter basiert, für die Textgenerierung sinnvoll ist, gibt es keine inhärente Generierungsreihenfolge, die für die Bildgenerierung existiert. Traditionell leitet eine Raster-Scan-Reihenfolge (von oben links nach unten rechts) autoregressive Bildgenerierungsmodelle. In diesem Papier argumentieren wir, dass diese Reihenfolge suboptimal ist, da sie die Kausalität des Bildinhalts nicht berücksichtigt: Zum Beispiel könnte ein autoregressives Modell, das auf eine visuelle Beschreibung eines Sonnenuntergangs konditioniert ist, Wolken vor der Sonne generieren, obwohl die Farbe der Wolken von der Farbe der Sonne abhängen sollte und nicht umgekehrt. In dieser Arbeit zeigen wir, dass wir zunächst durch das Training eines Modells, das Patches in beliebiger Reihenfolge generiert, sowohl den Inhalt als auch die Position (Reihenfolge) jedes Patches während der Generierung ableiten können. Zweitens verwenden wir diese extrahierten Reihenfolgen, um das Modell für beliebige Reihenfolgen zu feintunen, um qualitativ bessere Bilder zu erzeugen. Durch unsere Experimente zeigen wir anhand von zwei Datensätzen, dass diese neue Generierungsmethode bessere Bilder erzeugt als der traditionelle Raster-Scan-Ansatz, bei ähnlichen Trainingskosten und ohne zusätzliche Annotationen.
Die Annotation von Kameraposen in dynamischen Internetvideos in großem Maßstab ist entscheidend für die Weiterentwicklung von Bereichen wie der realistischen Videogenerierung und Simulation. Die Erstellung eines solchen Datensatzes ist jedoch schwierig, da die meisten Internetvideos für die Pose-Schätzung ungeeignet sind. Darüber hinaus stellt die Annotation dynamischer Internetvideos selbst für modernste Methoden erhebliche Herausforderungen dar. In diesem Artikel stellen wir DynPose-100K vor, einen groß angelegten Datensatz dynamischer Internetvideos, die mit Kameraposen annotiert sind. Unsere Erfassungspipeline adressiert die Filterung durch eine sorgfältig kombinierte Auswahl von aufgaben-spezifischen und allgemeinen Modellen. Für die Pose-Schätzung kombinieren wir die neuesten Techniken des Punkt-Trackings, der dynamischen Maskierung und der Struktur-aus-Bewegung, um Verbesserungen gegenüber den modernsten Ansätzen zu erzielen. Unsere Analysen und Experimente zeigen, dass DynPose-100K sowohl groß angelegt als auch in mehreren Schlüsselattributen vielfältig ist, wodurch neue Möglichkeiten für Fortschritte in verschiedenen nachgelagerten Anwendungen eröffnet werden.
Dimensionsreduktionstechniken sind grundlegend für die Analyse und Visualisierung hochdimensionaler Daten. Etablierte Methoden wie t-SNE und PCA bieten dabei einen Kompromiss zwischen Darstellungsfähigkeit und Interpretierbarkeit. Dieses Papier stellt einen neuartigen Ansatz vor, der diese Lücke schließt, indem er die Interpretierbarkeit linearer Methoden mit der Ausdrucksstärke nichtlinearer Transformationen kombiniert. Der vorgeschlagene Algorithmus konstruiert eine nichtlineare Abbildung zwischen hochdimensionalen und niedrigdimensionalen Räumen durch eine Kombination linearer Transformationen, die jeweils durch Gauß-Funktionen gewichtet werden. Diese Architektur ermöglicht komplexe nichtlineare Transformationen, während sie die Vorteile der Interpretierbarkeit linearer Methoden bewahrt, da jede Transformation unabhängig analysiert werden kann. Das resultierende Modell bietet sowohl leistungsstarke Dimensionsreduktion als auch transparente Einblicke in den transformierten Raum. Es werden Techniken zur Interpretation der gelernten Transformationen vorgestellt, einschließlich Methoden zur Identifizierung unterdrückter Dimensionen sowie zur Expansion und Kontraktion des Raums. Diese Werkzeuge ermöglichen es Praktikern zu verstehen, wie der Algorithmus geometrische Beziehungen während der Dimensionsreduktion bewahrt und modifiziert. Um die praktische Nutzbarkeit dieses Algorithmus zu gewährleisten, wird die Entwicklung benutzerfreundlicher Softwarepakete betont, die seine Anwendung sowohl in der Wissenschaft als auch in der Industrie erleichtern.