Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Vorverarbeitungsdatensätze werden typischerweise aus Webinhalten gesammelt und weisen keine inhärenten Domänenunterteilungen auf. Beispielsweise enthalten weit verbreitete Datensätze wie Common Crawl keine expliziten Domänenlabels, während die manuelle Kuratierung von gelabelten Datensätzen wie The Pile arbeitsintensiv ist. Folglich bleibt die Identifizierung einer optimalen Vorverarbeitungsdatenmischung ein herausforderndes Problem, obwohl sie erhebliche Vorteile für die Vorverarbeitungsleistung bietet. Um diese Herausforderungen zu bewältigen, schlagen wir CLustering-based Iterative Data Mixture Bootstrapping (CLIMB) vor, ein automatisiertes Framework, das Datenmischungen in einem Vorverarbeitungskontext entdeckt, bewertet und verfeinert. Konkret bettet CLIMB groß angelegte Datensätze in einen semantischen Raum ein, clustert sie und sucht dann iterativ nach optimalen Mischungen unter Verwendung eines kleineren Proxy-Modells und eines Prädiktors. Wenn unser 1B-Modell kontinuierlich mit dieser Mischung auf 400B Tokens trainiert wird, übertrifft es den State-of-the-Art Llama-3.2-1B um 2,0%. Darüber hinaus beobachten wir, dass die Optimierung für eine spezifische Domäne (z. B. Sozialwissenschaften) eine Verbesserung von 5 % gegenüber der zufälligen Stichprobenziehung erzielt. Schließlich stellen wir ClimbLab vor, ein gefiltertes 1,2-Billionen-Token-Korpus mit 20 Clustern als Forschungsumgebung, und ClimbMix, einen kompakten, aber leistungsstarken 400-Milliarden-Token-Datensatz, der für eine effiziente Vorverarbeitung konzipiert ist und unter einem gleichen Token-Budget eine überlegene Leistung liefert. Wir analysieren die endgültige Datenmischung und erläutern die Merkmale einer optimalen Datenmischung. Unsere Daten sind verfügbar unter: https://research.nvidia.com/labs/lpr/climb/
Frontier-Modelle, die erweiterte Denkprozesse erzeugen, produzieren unbeabsichtigt reiche Token-Sequenzen, die die Modell-Distillation erleichtern können. In Anerkennung dieser Schwachstelle könnten Modellbesitzer nach Sampling-Strategien suchen, die die Effektivität der Distillation begrenzen, ohne die Modellleistung zu beeinträchtigen. Antidistillation-Sampling bietet genau diese Fähigkeit. Durch strategische Modifikation der Wahrscheinlichkeitsverteilung des nächsten Tokens eines Modells vergiftet Antidistillation-Sampling Denkprozesse und macht sie deutlich weniger effektiv für die Distillation, während die praktische Nützlichkeit des Modells erhalten bleibt. Weitere Details finden Sie unter https://antidistillation.com.
Wir stellen eine neuronale Netzwerkarchitektur namens FramePack vor, um Modelle für die Vorhersage des nächsten Bildes (oder des nächsten Bildabschnitts) für die Videogenerierung zu trainieren. FramePack komprimiert die Eingabebilder, um die Kontextlänge des Transformers auf eine feste Anzahl zu begrenzen, unabhängig von der Videolänge. Dadurch können wir eine große Anzahl von Bildern mit Video-Diffusion verarbeiten, wobei der Rechenaufwand ähnlich wie bei der Bild-Diffusion bleibt. Dies ermöglicht auch deutlich größere Trainings-Batch-Größen für Videos (die Batch-Größen werden mit denen des Bild-Diffusion-Trainings vergleichbar). Zudem schlagen wir eine Anti-Drifting-Sampling-Methode vor, die Bilder in umgekehrter zeitlicher Reihenfolge generiert, mit früh festgelegten Endpunkten, um Exposure Bias (Fehlerakkumulation über Iterationen) zu vermeiden. Schließlich zeigen wir, dass bestehende Video-Diffusion-Modelle mit FramePack feinabgestimmt werden können und ihre visuelle Qualität verbessert werden kann, da die Vorhersage des nächsten Bildes ausgewogenere Diffusionszeitpläne mit weniger extremen Flussverschiebungs-Zeitschritten unterstützt.
Vision-Language Models (VLMs) zeichnen sich durch visuelles Verständnis aus, leiden jedoch häufig unter visuellen Halluzinationen, bei denen sie Beschreibungen von nicht existierenden Objekten, Handlungen oder Konzepten generieren. Dies stellt erhebliche Risiken in sicherheitskritischen Anwendungen dar. Bestehende Methoden zur Minderung von Halluzinationen folgen typischerweise einem von zwei Paradigmen: Generierungsanpassung, bei der das Decodierungsverhalten modifiziert wird, um den Text mit den visuellen Eingaben abzugleichen, und nachträgliche Verifizierung, bei der externe Modelle die Ausgaben bewerten und korrigieren. Obwohl effektiv, stützen sich Generierungsanpassungsmethoden oft auf Heuristiken und verfügen über keine Korrekturmechanismen, während die nachträgliche Verifizierung kompliziert ist, typischerweise mehrere Modelle erfordert und dazu neigt, Ausgaben abzulehnen, anstatt sie zu verfeinern. In dieser Arbeit stellen wir REVERSE vor, ein einheitliches Framework, das halluzinationsbewusstes Training mit einer Echtzeit-Selbstverifizierung integriert. Durch die Nutzung eines neuen Halluzinations-Verifizierungs-Datensatzes mit über 1,3 Millionen halbsynthetischen Proben sowie einer neuartigen retrospektiven Resampling-Technik zur Inferenzzeit ermöglicht unser Ansatz VLMs, Halluzinationen während der Generierung zu erkennen und diese dynamisch zu überarbeiten. Unsere Auswertungen zeigen, dass REVERSE eine state-of-the-art Reduzierung von Halluzinationen erreicht und die besten bestehenden Methoden um bis zu 12 % auf CHAIR-MSCOCO und 28 % auf HaloQuest übertrifft. Unser Datensatz, Modell und Code sind verfügbar unter: https://reverse-vlm.github.io.
Wir stellen Perception Encoder (PE) vor, einen modernen Encoder für das Verständnis von Bildern und Videos, der durch einfaches Vision-Language-Lernen trainiert wird. Traditionell haben Vision-Encoder auf einer Vielzahl von Vorab-Trainingszielen basiert, die jeweils auf spezifische nachgelagerte Aufgaben wie Klassifizierung, Beschriftung oder Lokalisierung zugeschnitten waren. Überraschenderweise stellen wir fest, dass kontrastives Vision-Language-Training allein, nach der Skalierung unseres sorgfältig abgestimmten Bild-Vorab-Trainingsrezepts und der Verfeinerung mit unserer robusten Video-Daten-Engine, starke, allgemeine Embeddings für all diese nachgelagerten Aufgaben erzeugen kann. Es gibt jedoch einen Haken: Diese Embeddings sind in den Zwischenschichten des Netzwerks verborgen. Um sie hervorzuholen, führen wir zwei Ausrichtungsmethoden ein: Sprachausrichtung für multimodales Sprachmodellieren und räumliche Ausrichtung für dichte Vorhersagen. Zusammen mit dem zentralen kontrastiven Checkpoint erreicht unsere PE-Modellfamilie Spitzenleistungen in einer Vielzahl von Aufgaben, einschließlich Zero-Shot-Bild- und Videoklassifizierung und -retrieval; Dokument-, Bild- und Video-Fragen und -Antworten; sowie räumliche Aufgaben wie Erkennung, Tiefenschätzung und Tracking. Um die weitere Forschung zu fördern, veröffentlichen wir unsere Modelle, Code und einen neuartigen Datensatz synthetisch und menschlich annotierter Videos.
Die Simulation von Welten hat aufgrund ihrer Fähigkeit, virtuelle Umgebungen zu modellieren und die Konsequenzen von Handlungen vorherzusagen, zunehmend an Popularität gewonnen. Allerdings führt das begrenzte zeitliche Kontextfenster oft zu Fehlern bei der Aufrechterhaltung langfristiger Konsistenz, insbesondere bei der Bewahrung der 3D-Raumkonsistenz. In dieser Arbeit stellen wir WorldMem vor, ein Framework, das die Szenengenerierung durch eine Speicherbank verbessert, die aus Speichereinheiten besteht, die Speicherframes und Zustände (z.B. Posen und Zeitstempel) speichern. Durch den Einsatz eines Speicher-Aufmerksamkeitsmechanismus, der relevante Informationen aus diesen Speicherframes basierend auf ihren Zuständen effektiv extrahiert, ist unsere Methode in der Lage, zuvor beobachtete Szenen auch bei signifikanten Blickwinkel- oder zeitlichen Abständen präzise zu rekonstruieren. Darüber hinaus ermöglicht die Einbindung von Zeitstempeln in die Zustände, dass unser Framework nicht nur eine statische Welt modelliert, sondern auch deren dynamische Entwicklung über die Zeit erfasst, wodurch sowohl Wahrnehmung als auch Interaktion innerhalb der simulierten Welt ermöglicht werden. Umfangreiche Experimente in virtuellen und realen Szenarien bestätigen die Wirksamkeit unseres Ansatzes.
Große Sprachmodelle (LLMs) haben in ihrer Größe rapide zugenommen, was erhebliche Herausforderungen für die effiziente Bereitstellung auf ressourcenbeschränkter Hardware mit sich bringt. In diesem Artikel stellen wir Dynamic-Length Float (DFloat11) vor, ein verlustfreies Kompressionsframework, das die Größe von LLMs um 30 % reduziert, während die Ausgaben bitgenau mit dem ursprünglichen Modell übereinstimmen. DFloat11 wird durch die niedrige Entropie in der BFloat16-Gewichtsdarstellung von LLMs motiviert, die erhebliche Ineffizienzen im bestehenden Speicherformat aufzeigt. Durch die Anwendung von Entropiekodierung weist DFloat11 Gewichten dynamische Längenkodierungen basierend auf ihrer Häufigkeit zu und erreicht damit eine nahezu informationsoptimale Kompression ohne Präzisionsverlust. Um eine effiziente Inferenz mit dynamischen Längenkodierungen zu ermöglichen, entwickeln wir einen speziellen GPU-Kernel für schnelle Online-Dekompression. Unser Design umfasst Folgendes: (i) die Zerlegung von speicherintensiven Lookup-Tabellen (LUTs) in kompakte LUTs, die in den GPU-SRAM passen, (ii) einen zweiphasigen Kernel zur Koordination der Lese-/Schreibpositionen von Threads mithilfe von leichtgewichtigen Hilfsvariablen und (iii) eine Dekompression auf Ebene der Transformer-Blöcke, um die Latenz zu minimieren. Experimente mit aktuellen Modellen, darunter Llama-3.1, Qwen-2.5 und Gemma-3, bestätigen unsere Hypothese, dass DFloat11 eine Reduzierung der Modellgröße um etwa 30 % erreicht, während die Ausgaben bitgenau erhalten bleiben. Im Vergleich zu einer potenziellen Alternative, bei der Teile eines unkomprimierten Modells auf die CPU ausgelagert werden, um Speicherbeschränkungen zu erfüllen, erreicht DFloat11 eine 1,9- bis 38,8-fach höhere Durchsatzrate bei der Token-Generierung. Bei einem festen GPU-Speicherbudget ermöglicht DFloat11 5,3- bis 13,17-fach längere Kontextlängen als unkomprimierte Modelle. Bemerkenswerterweise ermöglicht unsere Methode die verlustfreie Inferenz von Llama-3.1-405B, einem 810 GB großen Modell, auf einem einzelnen Knoten mit 8x80GB GPUs. Unser Code und unsere Modelle sind unter https://github.com/LeanModels/DFloat11 verfügbar.
Während Daten synthese und -destillation vielversprechende Strategien zur Verbesserung kleiner Sprachmodelle sind, stützen sich aktuelle Ansätze stark auf Large Language Models (LLMs), die unter hohen Rechenkosten, Umweltineffizienz und potenziellen Verzerrungen leiden, die von monolithischen Architekturen geerbt werden. Im Gegensatz dazu sind kleinere LLMs zugänglicher und nachhaltiger, aber ihre individuellen Fähigkeiten reichen oft nicht aus, um hochwertige, vielfältige und zuverlässige Daten zu generieren. Inspiriert von kollaborativen menschlichen Prozessen (z. B. Peer-Review) schlagen wir ein Framework vor, GRA, das mehrere kleine LLMs einbezieht, um spezialisierte Rollen über kleine LLMs hinweg zu aggregieren und so iterative Verfeinerung und Qualitätskontrolle zu erreichen, die typischerweise von einem einzelnen großen LLM erzielt werden. In diesem kollaborativen Framework übernehmen mehrere kleine LLMs unterschiedliche Rollen – Generator, Reviewer und Adjudicator –, um eine von Peer-Review inspirierte Daten synthese-Pipeline zu simulieren. Der Generator schlägt initiale Datenproben vor, der Reviewer kritisiert deren Qualität und Vielfalt, und der Adjudicator löst Konflikte, um die Ausgabe zu finalisieren. Indem der Syntheseprozess in spezialisierte Teilaufgaben zerlegt wird, können kollaborative kleine LLMs eine Datenparität mit der Destillation auf Basis großer LLMs erreichen. Durch Experimente über mehrere Benchmarks hinweg zeigen wir, dass die von GRA produzierten Daten die Qualität der Ausgaben eines einzelnen großen LLMs, z. B. Qwen-2.5-72B-Instruct, erreichen oder übertreffen. Unsere Ergebnisse stellen die Notwendigkeit monolithischer großer Modelle für hochwertige Daten synthese in Frage und plädieren stattdessen für eine strategische Koordination kleinerer Agenten. Unsere Datensätze, Modelle und Code sind öffentlich verfügbar unter https://github.com/GX-XinGao/GRA.
Diagramme sind allgegenwärtig, da Menschen sie häufig zur Datenanalyse, zur Beantwortung von Fragen und zur Entdeckung entscheidender Erkenntnisse verwenden. Die Durchführung komplexer analytischer Aufgaben mit Diagrammen erfordert jedoch erhebliche Wahrnehmungs- und kognitive Anstrengung. Chart Question Answering (CQA)-Systeme automatisieren diesen Prozess, indem sie Modellen ermöglichen, visuelle Darstellungen von Daten zu interpretieren und damit zu schlussfolgern. Bestehende Benchmarks wie ChartQA weisen jedoch eine mangelnde reale Vielfalt auf und haben kürzlich eine Leistungssättigung bei modernen großen visuell-sprachlichen Modellen (LVLMs) gezeigt. Um diese Einschränkungen zu überwinden, führen wir ChartQAPro ein, einen neuen Benchmark, der 1.341 Diagramme aus 157 verschiedenen Quellen umfasst, die verschiedene Diagrammtypen, einschließlich Infografiken und Dashboards, abdecken, und 1.948 Fragen in verschiedenen Formaten wie Multiple-Choice, Konversations-, hypothetische und unbeantwortbare Fragen enthalten, um die Herausforderungen der realen Welt besser widerzuspiegeln. Unsere Auswertungen mit 21 Modellen zeigen einen erheblichen Leistungsabfall bei LVLMs auf ChartQAPro; beispielsweise erzielt Claude Sonnet 3.5 90,5 % auf ChartQA, aber nur 55,81 % auf ChartQAPro, was die Komplexität der Diagrammargumentation unterstreicht. Wir ergänzen unsere Ergebnisse mit detaillierten Fehleranalysen und Ablationsstudien, die wichtige Herausforderungen und Möglichkeiten für die Weiterentwicklung von LVLMs im Bereich des Diagrammverständnisses und der Diagrammargumentation identifizieren. Wir veröffentlichen ChartQAPro unter https://github.com/vis-nlp/ChartQAPro.
Große Videomodelle (Large Video Models, LVMs), die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, haben vielversprechende Ergebnisse in der Videoverständnis gezeigt, leiden jedoch häufig unter Fehlausrichtungen mit der menschlichen Intuition und Problemen wie Video-Halluzinationen. Um diese Herausforderungen zu bewältigen, stellen wir VistaDPO vor, ein neuartiges Framework für die hierarchische räumlich-zeitliche Direkte Präferenzoptimierung (Video Hierarchical Spatial-Temporal Direct Preference Optimization). VistaDPO verbessert die Text-Video-Präferenzausrichtung auf drei hierarchischen Ebenen: i) Instanzebene, die den Gesamtinhalt des Videos mit den Antworten in Einklang bringt; ii) zeitliche Ebene, die die zeitliche Semantik des Videos mit Ereignisbeschreibungen abstimmt; und iii) Wahrnehmungsebene, die räumliche Objekte mit Sprach-Tokens ausrichtet. Angesichts des Mangels an Datensätzen für die fein abgestimmte Video-Sprach-Präferenzausrichtung haben wir VistaDPO-7k erstellt, einen Datensatz mit 7.2K Frage-Antwort-Paaren, die mit ausgewählten und abgelehnten Antworten sowie räumlich-zeitlichen Verankerungsinformationen wie Zeitstempeln, Keyframes und Begrenzungsrahmen annotiert sind. Umfangreiche Experimente auf Benchmarks wie Video-Halluzination, Video-Fragenbeantwortung (Video QA) und Beschreibungsleistungsaufgaben (Captioning) zeigen, dass VistaDPO die Leistung bestehender LVMs signifikant verbessert und effektiv Fehlausrichtungen zwischen Video und Sprache sowie Halluzinationen reduziert. Der Code und die Daten sind unter https://github.com/HaroldChen19/VistaDPO verfügbar.
Der Erfolg von Text-zu-Bild (T2I)-Generierungsmodellen hat eine Vielzahl von Modell-Checkpoints hervorgebracht, die aus demselben Basismodell auf verschiedenen spezialisierten Datensätzen feinabgestimmt wurden. Diese überwältigende Produktion spezialisierter Modelle führt zu neuen Herausforderungen in Bezug auf hohe Parameterredundanz und enorme Speicherkosten, was die Entwicklung effektiver Methoden zur Konsolidierung und Vereinigung der Fähigkeiten verschiedener leistungsstarker Modelle in einem einzigen Modell notwendig macht. Eine gängige Praxis bei der Modellzusammenführung ist die Verwendung statischer linearer Interpolation im Parameterraum, um das Ziel der Stilmischung zu erreichen. Dabei werden jedoch die Merkmale der T2I-Generierungsaufgabe vernachlässigt, bei der zahlreiche unterschiedliche Modelle verschiedene Stile abdecken, was zu Inkompatibilität und Verwirrung im zusammengeführten Modell führen kann. Um dieses Problem zu lösen, führen wir eine stilanfragbare Bildgenerierungspipeline ein, die präzise Bilder in beliebigen Stilen unter der Kontrolle von Stilvektoren erzeugen kann. Basierend auf diesem Design schlagen wir das auf Score-Distillation basierende Modellzusammenführungsparadigma (DMM) vor, das mehrere Modelle in ein einziges vielseitiges T2I-Modell komprimiert. Darüber hinaus überdenken und reformulieren wir die Aufgabe der Modellzusammenführung im Kontext der T2I-Generierung, indem wir neue Zusammenführungsziele und Bewertungsprotokolle vorstellen. Unsere Experimente zeigen, dass DMM das Wissen mehrerer Lehrermodelle kompakt reorganisieren und eine kontrollierbare Generierung in beliebigen Stilen erreichen kann.
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die Fähigkeiten von Vision-Language-Modellen (VLMs) zur logischen Schlussfolgerung gestärkt. Die Verbesserung der Policy-Exploration, um die Rechenleistung zur Testzeit effektiver zu skalieren, bleibt jedoch in VLMs weitgehend unerforscht. Zudem kämpfen VLMs weiterhin mit unvollkommener visueller Wahrnehmung, was sich wiederum auf den nachfolgenden Schlussfolgerungsprozess auswirkt. Vor diesem Hintergrund schlagen wir NoisyRollout vor, einen einfachen, aber effektiven RL-Ansatz, der Trajektorien sowohl aus sauberen als auch aus mäßig verzerrten Bildern mischt, um gezielte Diversität in der visuellen Wahrnehmung und den daraus resultierenden Schlussfolgerungsmustern einzuführen. Ohne zusätzliche Trainingskosten verbessert NoisyRollout die Explorationsfähigkeiten von VLMs durch die Einführung einer visuell orientierten induktiven Verzerrung. Darüber hinaus verwendet NoisyRollout einen Rauschabklingplan, der die Stärke der Verzerrung während des Trainings schrittweise reduziert, um frühzeitig von verrauschten Signalen zu profitieren und gleichzeitig die Trainingsstabilität und Skalierbarkeit in späteren Phasen zu gewährleisten. Mit nur 2.1K Trainingsdaten erreicht NoisyRollout state-of-the-art Leistungen unter den Open-Source-RL-optimierten Modellen in 5 Out-of-Domain-Benchmarks, die sowohl logische Schlussfolgerungen als auch Wahrnehmungsaufgaben umfassen, während es eine vergleichbare oder sogar bessere In-Domain-Leistung beibehält.
Vision-Language-Modelle sind ein integraler Bestandteil der Computer-Vision-Forschung, doch viele leistungsstarke Modelle bleiben Closed-Source, wodurch ihre Daten, ihr Design und ihre Trainingsmethoden im Verborgenen bleiben. Die Forschungsgemeinschaft hat darauf reagiert, indem sie Distillation von Black-Box-Modellen zur Beschriftung von Trainingsdaten verwendet hat, was starke Benchmark-Ergebnisse erzielt, jedoch auf Kosten eines messbaren wissenschaftlichen Fortschritts. Ohne die Details des Lehrer-Modells und seiner Datenquellen zu kennen, bleibt der wissenschaftliche Fortschritt jedoch schwer zu messen. In diesem Artikel untersuchen wir den Aufbau eines Perception Language Model (PLM) in einem vollständig offenen und reproduzierbaren Framework für transparente Forschung im Bereich der Bild- und Videoanalyse. Wir analysieren Standard-Trainingspipeline ohne Distillation von proprietären Modellen und erforschen groß angelegte synthetische Daten, um kritische Datenlücken zu identifizieren, insbesondere bei der detaillierten Videoanalyse. Um diese Lücken zu schließen, veröffentlichen wir 2,8 Millionen menschlich beschriftete Instanzen von fein abgestimmten Video-Frage-Antwort-Paaren und räumlich-zeitlich verankerten Video-Beschreibungen. Zusätzlich führen wir PLM-VideoBench ein, eine Suite zur Bewertung anspruchsvoller Videoanalyse-Aufgaben, die sich auf die Fähigkeit konzentriert, das „Was“, „Wo“, „Wann“ und „Wie“ eines Videos zu verstehen. Wir machen unsere Arbeit vollständig reproduzierbar, indem wir Daten, Trainingsmethoden, Code und Modelle bereitstellen.
Aktuelle lernbasierte Ansätze zur Subjektanpassung, die hauptsächlich auf U-Net-Architekturen basieren, leiden unter begrenzter Generalisierungsfähigkeit und beeinträchtigter Bildqualität. Gleichzeitig erfordern optimierungsbasierte Methoden eine subjektspezifische Feinabstimmung, was unweigerlich die textuelle Steuerbarkeit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir InstantCharacter vor, ein skalierbares Framework für die Charakteranpassung, das auf einem Foundation-Diffusion-Transformer basiert. InstantCharacter weist drei grundlegende Vorteile auf: Erstens erreicht es eine Open-Domain-Personalisierung über diverse Charaktererscheinungen, Posen und Stile hinweg, während es hochwertige Ergebnisse liefert. Zweitens führt das Framework einen skalierbaren Adapter mit gestapelten Transformer-Encodern ein, der effektiv Open-Domain-Charaktermerkmale verarbeitet und nahtlos mit dem latenten Raum moderner Diffusion-Transformer interagiert. Drittens haben wir zur effektiven Schulung des Frameworks einen groß angelegten Charakterdatensatz mit 10-Millionen-Level-Proben erstellt. Der Datensatz ist systematisch in gepaarte (Multi-View-Charakter) und ungepaarte (Text-Bild-Kombinationen) Teilmengen organisiert. Diese duale Datenstruktur ermöglicht die gleichzeitige Optimierung von Identitätskonsistenz und textueller Bearbeitbarkeit durch unterschiedliche Lernpfade. Qualitative Experimente demonstrieren die fortgeschrittenen Fähigkeiten von InstantCharacter bei der Erzeugung von hochwertigen, textgesteuerten und charakterkonsistenten Bildern, wodurch ein neuer Maßstab für die charaktergesteuerte Bildgenerierung gesetzt wird. Unser Quellcode ist verfügbar unter https://github.com/Tencent/InstantCharacter.
Die Skalierung der Rechenleistung zur Testzeit hat sich als Schlüsselelement erwiesen, um großen Sprachmodellen (LLMs) die Lösung schwieriger Probleme zu ermöglichen, geht jedoch mit hoher Latenz und hohen Inferenzkosten einher. Wir führen die Rechenleistung zur Schlafzeit ein, die es Modellen ermöglicht, offline über Kontexte „nachzudenken“, bevor Abfragen gestellt werden: Indem wir vorhersagen, welche Abfragen Nutzer stellen könnten, und nützliche Größen vorab berechnen, können wir den Rechenbedarf zur Testzeit erheblich reduzieren. Um die Wirksamkeit unserer Methode zu demonstrieren, erstellen wir modifizierte Versionen von zwei Aufgaben zur logischen Schlussfolgerung – Stateful GSM-Symbolic und Stateful AIME. Wir stellen fest, dass die Rechenleistung zur Schlafzeit den benötigten Rechenaufwand zur Testzeit, um die gleiche Genauigkeit zu erreichen, um das ~5-fache bei Stateful GSM-Symbolic und Stateful AIME reduzieren kann und dass wir durch die Skalierung der Rechenleistung zur Schlafzeit die Genauigkeit bei Stateful GSM-Symbolic um bis zu 13 % und bei Stateful AIME um bis zu 18 % weiter steigern können. Darüber hinaus führen wir Multi-Query GSM-Symbolic ein, das GSM-Symbolic um mehrere verwandte Abfragen pro Kontext erweitert. Indem wir die Rechenleistung zur Schlafzeit über verwandte Abfragen zum gleichen Kontext mit Multi-Query GSM-Symbolic amortisieren, können wir die durchschnittlichen Kosten pro Abfrage um das 2,5-fache senken. Anschließend führen wir zusätzliche Analysen durch, um zu verstehen, wann die Rechenleistung zur Schlafzeit am effektivsten ist, und stellen fest, dass die Vorhersagbarkeit der Nutzerabfrage gut mit der Wirksamkeit der Rechenleistung zur Schlafzeit korreliert. Abschließend führen wir eine Fallstudie durch, in der wir die Rechenleistung zur Schlafzeit auf eine realistische agentenbasierte SWE-Aufgabe anwenden.
Große Sprachmodelle (LLMs) haben ein enormes Potenzial als Agenten gezeigt und glänzen bei Aufgaben, die mehrere Runden von Schlussfolgerungen und Interaktionen erfordern. Rejection Sampling Fine-Tuning (RFT) hat sich als effektive Methode zur Feinabstimmung von LLMs als Agenten erwiesen: Es imitiert zunächst erfolgreiche Trajektorien, die von Experten generiert wurden, und verbessert die agentischen Fähigkeiten weiter durch iterative Feinabstimmung anhand erfolgreicher, selbstgenerierter Trajektorien. Da der Experte (z. B. GPT-4) jedoch hauptsächlich bei einfacheren Teilaufgaben erfolgreich ist und RFT inhärent einfachere Szenarien bevorzugt, bleiben viele komplexe Teilaufgaben ungelöst und dauerhaft außerhalb der Verteilung (OOD). Bei der Untersuchung dieser anspruchsvollen Teilaufgaben stellten wir fest, dass zuvor gescheiterte Experten-Trajektorien oft wertvolle Hinweise liefern können, z. B. Pläne und Schlüsselaktionen, die die Effizienz der Agenten-Exploration und den Erwerb kritischer Fähigkeiten erheblich verbessern können. Motiviert durch diese Beobachtungen schlagen wir Exploring Expert Failures (EEF) vor, das nützliche Aktionen aus gescheiterten Experten-Trajektorien identifiziert und in den Trainingsdatensatz integriert. Potenziell schädliche Aktionen werden sorgfältig ausgeschlossen, um eine Kontamination des Modelllernprozesses zu verhindern. Durch die Nutzung der nützlichen Aktionen in Expertenfehlern löst EEF erfolgreich einige zuvor unlösbare Teilaufgaben und verbessert die Leistung der Agenten-Feinabstimmung. Bemerkenswerterweise erreichte unser Ansatz eine Gewinnrate von 62 % in WebShop, übertraf damit RFT (53,6 %) und GPT-4 (35,6 %) und setzte nach unserem Wissen einen neuen State-of-the-art als erste Methode, die einen Score von 0,81 in WebShop überschritt und 81 in SciWorld übertraf.
Die rechnerische Farbkonstanz, auch Weißabgleich genannt, ist ein zentrales Modul im Bildsignalprozessor (ISP) einer Kamera, das Farbstiche durch die Beleuchtung der Szene korrigiert. Da dieser Vorgang im kameraspezifischen Rohfarbraum stattfindet, müssen Weißabgleichalgorithmen an verschiedene Kameras angepasst werden. Dieses Papier stellt eine lernbasierte Methode für die kameraübergreifende Farbkonstanz vor, die sich auf neue Kameras verallgemeinern lässt, ohne neu trainiert zu werden. Unsere Methode nutzt vorkalibrierte Farbkorrekturmatrizen (CCMs), die in ISPs verfügbar sind und den Rohfarbraum der Kamera in einen Standardraum (z. B. CIE XYZ) abbilden. Unsere Methode verwendet diese CCMs, um vordefinierte Beleuchtungsfarben (z. B. entlang der Planck-Kurve) in den Rohfarbraum der Testkamera zu transformieren. Die abgebildeten Lichtquellen werden in eine kompakte Kamera-Fingerprint-Einbettung (CFE) kodiert, die es dem Netzwerk ermöglicht, sich auf unbekannte Kameras anzupassen. Um Überanpassung aufgrund der begrenzten Anzahl von Kameras und CCMs während des Trainings zu verhindern, führen wir eine Datenaugmentierungstechnik ein, die zwischen Kameras und ihren CCMs interpoliert. Experimentelle Ergebnisse über mehrere Datensätze und Backbones hinweg zeigen, dass unsere Methode den Stand der Technik in der kameraübergreifenden Farbkonstanz erreicht, dabei leichtgewichtig bleibt und sich ausschließlich auf Daten stützt, die in Kamera-ISPs leicht verfügbar sind.
Movie Audio Description (AD) zielt darauf ab, visuelle Inhalte in dialogfreien Abschnitten zu beschreiben und kommt insbesondere blinden und sehbehinderten (BVI) Zuschauern zugute. Im Vergleich zur allgemeinen Videountertitelung erfordert AD eine handlungsrelevante Erzählung mit expliziten Charakternamen, was einzigartige Herausforderungen im Verständnis von Filmen darstellt. Um aktive Hauptcharaktere zu identifizieren und sich auf handlungsrelevante Regionen zu konzentrieren, schlagen wir FocusedAD vor, ein neuartiges Framework, das charakterzentrierte Film-Audio-Deskriptionen liefert. Es umfasst: (i) ein Character Perception Module (CPM) zur Verfolgung von Charakterregionen und deren Verknüpfung mit Namen; (ii) ein Dynamic Prior Module (DPM), das kontextuelle Hinweise aus vorherigen ADs und Untertiteln über lernbare Soft Prompts einfügt; und (iii) ein Focused Caption Module (FCM), das Erzählungen mit handlungsrelevanten Details und benannten Charakteren anreichert. Um die Einschränkungen bei der Charakteridentifikation zu überwinden, führen wir außerdem eine automatisierte Pipeline zur Erstellung von Charakter-Abfragebanken ein. FocusedAD erzielt state-of-the-art Leistungen auf mehreren Benchmarks, einschließlich starker Zero-Shot-Ergebnisse auf MAD-eval-Named und unserem neu vorgeschlagenen Cinepile-AD-Datensatz. Code und Daten werden unter https://github.com/Thorin215/FocusedAD veröffentlicht.
Wir stellen Complex-Edit vor, einen umfassenden Benchmark, der entwickelt wurde, um instruktionsbasierte Bildbearbeitungsmodelle systematisch über Anweisungen unterschiedlicher Komplexität hinweg zu evaluieren. Um diesen Benchmark zu erstellen, nutzen wir GPT-4o, um automatisch eine vielfältige Sammlung von Bearbeitungsanweisungen in großem Maßstab zu generieren. Unser Ansatz folgt einer strukturierten „Chain-of-Edit“-Pipeline: Zuerst generieren wir individuelle atomare Bearbeitungsaufgaben unabhängig voneinander und integrieren sie dann, um zusammenhängende, komplexe Anweisungen zu bilden. Zusätzlich führen wir eine Reihe von Metriken ein, um verschiedene Aspekte der Bearbeitungsleistung zu bewerten, sowie eine VLM-basierte Auto-Evaluationspipeline, die groß angelegte Bewertungen unterstützt. Unser Benchmark liefert mehrere bemerkenswerte Erkenntnisse: 1) Open-Source-Modelle schneiden im Vergleich zu proprietären, geschlossenen Modellen deutlich schlechter ab, wobei die Leistungslücke mit zunehmender Komplexität der Anweisungen größer wird; 2) Erhöhte Anweisungskomplexität beeinträchtigt vor allem die Fähigkeit der Modelle, Schlüsselelemente der Eingabebilder zu erhalten und die ästhetische Gesamtqualität zu bewahren; 3) Die Zerlegung einer komplexen Anweisung in eine Sequenz atomarer Schritte, die schrittweise ausgeführt werden, verschlechtert die Leistung über mehrere Metriken hinweg erheblich; 4) Eine einfache Best-of-N-Auswahlstrategie verbessert die Ergebnisse sowohl für die direkte Bearbeitung als auch für den schrittweisen sequenziellen Ansatz; und 5) Wir beobachten einen „Fluch synthetischer Daten“: Wenn synthetische Daten in das Modelltraining einbezogen werden, neigen die bearbeiteten Bilder solcher Modelle dazu, mit steigender Komplexität der Bearbeitungsanweisungen zunehmend synthetisch zu wirken – ein Phänomen, das interessanterweise auch in den neuesten GPT-4o-Ausgaben auftritt.
Große Sprachmodell-Agenten (LLM-Agenten) setzen zunehmend retrieval-augmentierte Generierung (RAG) ein, um die Faktentreue ihrer Antworten zu verbessern. In der Praxis müssen diese Systeme jedoch oft mit mehrdeutigen Benutzeranfragen und potenziell widersprüchlichen Informationen aus mehreren Quellen umgehen, während sie gleichzeitig ungenaue Informationen aus verrauschten oder irrelevanten Dokumenten unterdrücken müssen. Bisherige Arbeiten haben diese Herausforderungen in der Regel isoliert betrachtet und jeweils nur einen Aspekt behandelt, wie z. B. den Umgang mit Mehrdeutigkeit oder die Robustheit gegenüber Rauschen und Fehlinformationen. Wir betrachten stattdessen mehrere Faktoren gleichzeitig und schlagen (i) RAMDocs (Retrieval mit Mehrdeutigkeit und Fehlinformationen in Dokumenten) vor, einen neuen Datensatz, der komplexe und realistische Szenarien für widersprüchliche Beweise zu einer Benutzeranfrage simuliert, einschließlich Mehrdeutigkeit, Fehlinformationen und Rauschen; und (ii) MADAM-RAG, einen Multi-Agenten-Ansatz, bei dem LLM-Agenten in mehreren Runden über die Vorzüge einer Antwort diskutieren, sodass ein Aggregator Antworten zu eindeutigen Entitäten zusammenfassen kann, während Fehlinformationen und Rauschen verworfen werden, wodurch verschiedene Konfliktquellen gemeinsam behandelt werden. Wir demonstrieren die Wirksamkeit von MADAM-RAG sowohl mit geschlossenen als auch mit Open-Source-Modellen auf AmbigDocs – das die Darstellung aller gültigen Antworten auf mehrdeutige Anfragen erfordert – und verbessern starke RAG-Baselines um bis zu 11,40 %. Auf FaithEval – das die Unterdrückung von Fehlinformationen erfordert – verbessern wir mit Llama3.3-70B-Instruct um bis zu 15,80 % (absolut). Darüber hinaus stellen wir fest, dass RAMDocs eine Herausforderung für bestehende RAG-Baselines darstellt (Llama3.3-70B-Instruct erreicht nur einen exakten Übereinstimmungswert von 32,60). Während MADAM-RAG beginnt, diese widersprüchlichen Faktoren zu adressieren, zeigt unsere Analyse, dass insbesondere bei zunehmendem Ungleichgewicht in unterstützenden Beweisen und Fehlinformationen eine erhebliche Lücke bleibt.
Die ethische Bereitstellung von Text-zu-Bild-Modellen erfordert effektive Techniken, um die Erzeugung schädlicher oder unangemessener Inhalte zu verhindern. Während Konzeptlöschungsmethoden eine vielversprechende Lösung bieten, weisen bestehende Feinabstimmungsansätze bemerkenswerte Einschränkungen auf. Ankerfreie Methoden riskieren die Unterbrechung von Sampling-Trajektorien, was zu visuellen Artefakten führt, während ankerbasierte Methoden auf der heuristischen Auswahl von Ankerkonzepten beruhen. Um diese Mängel zu überwinden, führen wir ein Feinabstimmungsframework namens ANT ein, das Automatisch deNoising-Trajektorien steuert, um unerwünschte Konzepte zu vermeiden. ANT basiert auf einer zentralen Erkenntnis: Die Umkehrung der Bedingungsrichtung des classifier-free guidance während der mittleren bis späten Denoising-Phasen ermöglicht eine präzise Inhaltsmodifikation, ohne die strukturelle Integrität in frühen Phasen zu opfern. Dies inspiriert ein trajektorienbewusstes Ziel, das die Integrität des Score-Funktionsfelds in frühen Phasen bewahrt, das Proben in Richtung der natürlichen Bildmannigfaltigkeit lenkt, ohne auf heuristische Ankerkonzeptauswahl angewiesen zu sein. Für die Löschung einzelner Konzepte schlagen wir eine augmentationsverstärkte Gewichtssalienzkarte vor, um die kritischen Parameter, die am stärksten zum unerwünschten Konzept beitragen, präzise zu identifizieren und so eine gründlichere und effizientere Löschung zu ermöglichen. Für die Löschung mehrerer Konzepte bietet unsere Zielfunktion eine vielseitige Plug-and-Play-Lösung, die die Leistung erheblich steigert. Umfangreiche Experimente zeigen, dass ANT in der Löschung einzelner und mehrerer Konzepte state-of-the-art Ergebnisse erzielt und hochwertige, sichere Ausgaben liefert, ohne die generative Treue zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/lileyang1210/ANT.
Kürzlich entwickelte kleinere Sprachmodelle wie Phi-3.5 und Phi-4 basieren auf synthetischen Daten, die mithilfe größerer Sprachmodelle generiert wurden. Es bleiben jedoch Fragen offen, wie synthetische Daten für andere Anwendungsfälle genutzt werden können, beispielsweise zur Anpassung von LLMs (Large Language Models) an spezifische Domänen. Eine wesentliche Einschränkung synthetischer Daten ist deren geringe Diversität, was sich negativ auf deren Anwendbarkeit zur Verbesserung anderer Modelle auswirkt. Um dies zu adressieren, schlagen wir MetaSynth vor, eine Methode zur Generierung synthetischer Daten, die die Diversität durch Meta-Prompting erhöht, bei dem ein Sprachmodell mehrere „Experten“-LLM-Agenten orchestriert, um gemeinsam Daten zu erzeugen. Mit nur 25 Millionen Token synthetischer Daten, die mit MetaSynth generiert wurden, konnten wir ein gut trainiertes LLM (Mistral-7B-v0.3) erfolgreich an zwei spezialisierte Domänen – Finanzen und Biomedizin – anpassen, ohne die Fähigkeiten des resultierenden Modells in allgemeinen Aufgaben zu beeinträchtigen. Zusätzlich bewerten wir die Diversität unserer synthetischen Daten anhand von sieben automatisierten Metriken und stellen fest, dass sie der Diversität von LLM-Vortrainingskorpora nahekommt. Die kontinuierliche Vortrainierung von Mistral-7B-v0.3 mit MetaSynth übertrifft das Basismodell deutlich und zeigt Verbesserungen von bis zu 4,08 % im Bereich Finanzen und 13,75 % in der Biomedizin. Dasselbe Modell zeigt eine verschlechterte Leistung, wenn es mit Daten trainiert wird, die mithilfe eines Template-Prompts generiert wurden, selbst wenn das Template frühere Generationen und variierende In-Context-Beispiele realer Daten enthält. Unsere Ergebnisse deuten darauf hin, dass einige Millionen Token diverser synthetischer Daten, ohne Vermischung mit realen Daten, ausreichen, um eine effektive Domänenanpassung mit MetaSynth zu erreichen.
Single-Stream-Architekturen, die auf Vision Transformer (ViT)-Backbones basieren, zeigen in letzter Zeit großes Potenzial für die Echtzeitverfolgung von UAVs (unbemannten Luftfahrzeugen). Häufige Verdeckungen durch Hindernisse wie Gebäude und Bäume offenbaren jedoch einen wesentlichen Nachteil: Diese Modelle verfügen oft nicht über effektive Strategien, um mit Verdeckungen umzugehen. Neue Methoden sind erforderlich, um die Widerstandsfähigkeit gegen Verdeckungen von Single-Stream-ViT-Modellen in der Luftverfolgung zu verbessern. In dieser Arbeit schlagen wir vor, verdeckungsrobuste Repräsentationen (Occlusion-Robust Representations, ORR) basierend auf ViTs für die UAV-Verfolgung zu erlernen, indem eine Invarianz der Merkmalsrepräsentation eines Ziels gegenüber zufälligen Maskierungsoperationen erzwungen wird, die durch einen räumlichen Cox-Prozess modelliert werden. Diese zufällige Maskierung simuliert hoffentlich Zielverdeckungen annähernd, wodurch wir in der Lage sind, ViTs zu erlernen, die robust gegenüber Zielverdeckungen für die UAV-Verfolgung sind. Dieser Rahmen wird als ORTrack bezeichnet. Zusätzlich schlagen wir, um Echtzeitanwendungen zu ermöglichen, eine adaptive, merkmalsbasierte Wissensdistillation (Adaptive Feature-Based Knowledge Distillation, AFKD) vor, um einen kompakteren Tracker zu erstellen, der das Verhalten des Lehrermodells ORTrack entsprechend der Schwierigkeit der Aufgabe adaptiv nachahmt. Dieses Schülermodell, genannt ORTrack-D, behält einen Großteil der Leistung von ORTrack bei und bietet gleichzeitig eine höhere Effizienz. Umfangreiche Experimente auf mehreren Benchmarks validieren die Wirksamkeit unserer Methode und demonstrieren ihre state-of-the-art Leistung. Der Code ist unter https://github.com/wuyou3474/ORTrack verfügbar.