papers.description
Normalisierungsschichten sind in modernen neuronalen Netzwerken allgegenwärtig und wurden lange Zeit als unverzichtbar angesehen. Diese Arbeit zeigt, dass Transformer ohne Normalisierung mit einer bemerkenswert einfachen Technik die gleiche oder sogar bessere Leistung erzielen können. Wir stellen Dynamic Tanh (DyT) vor, eine elementweise Operation DyT(x) = tanh(alpha x), als direkten Ersatz für Normalisierungsschichten in Transformern. DyT ist von der Beobachtung inspiriert, dass die Schichtnormalisierung in Transformern oft tanh-ähnliche, S-förmige Eingabe-Ausgabe-Abbildungen erzeugt. Durch die Integration von DyT können Transformer ohne Normalisierung die Leistung ihrer normalisierten Gegenstücke erreichen oder übertreffen, meist ohne Hyperparameter-Tuning. Wir validieren die Wirksamkeit von Transformern mit DyT in verschiedenen Anwendungsbereichen, von der Erkennung bis zur Generierung, von überwachtem bis zu selbstüberwachtem Lernen und von der Computer Vision bis zu Sprachmodellen. Diese Ergebnisse stellen das konventionelle Verständnis infrage, dass Normalisierungsschichten in modernen neuronalen Netzwerken unverzichtbar sind, und bieten neue Einblicke in ihre Rolle in tiefen Netzwerken.
Da es mittlerweile Millionen öffentlich verfügbarer neuronaler Netze gibt, wird die Suche und Analyse großer Modell-Repositorys immer wichtiger. Die Navigation durch so viele Modelle erfordert einen Atlas, doch da die meisten Modelle nur unzureichend dokumentiert sind, ist die Erstellung eines solchen Atlas eine Herausforderung. Um das verborgene Potenzial von Modell-Repositorys zu erkunden, erstellen wir einen vorläufigen Atlas, der den dokumentierten Teil von Hugging Face repräsentiert. Dieser bietet beeindruckende Visualisierungen der Modelllandschaft und ihrer Entwicklung. Wir demonstrieren mehrere Anwendungen dieses Atlas, einschließlich der Vorhersage von Modellattributen (z. B. Genauigkeit) und der Analyse von Trends in Computervision-Modellen. Da der aktuelle Atlas jedoch unvollständig bleibt, schlagen wir eine Methode zur Kartierung undokumentierter Regionen vor. Insbesondere identifizieren wir hochvertrauenswürdige strukturelle Prioritäten basierend auf dominierenden Praktiken des Modelltrainings in der realen Welt. Durch die Nutzung dieser Prioritäten ermöglicht unser Ansatz eine präzise Kartierung bisher undokumentierter Bereiche des Atlas. Wir veröffentlichen unsere Datensätze, Code und den interaktiven Atlas öffentlich.
Text-to-Image-Modelle wie Stable Diffusion und DALLE-3 haben nach wie vor Schwierigkeiten mit der mehrstufigen Bildbearbeitung. Wir zerlegen eine solche Aufgabe in einen agentenbasierten Workflow (Pfad) der Werkzeugnutzung, der eine Abfolge von Teilaufgaben durch KI-Werkzeuge mit unterschiedlichen Kosten bewältigt. Konventionelle Suchalgorithmen erfordern eine aufwendige Exploration, um Werkzeugpfade zu finden. Während große Sprachmodelle (LLMs) über Vorwissen zur Planung von Teilaufgaben verfügen, fehlt ihnen oft eine genaue Einschätzung der Fähigkeiten und Kosten von Werkzeugen, um zu bestimmen, welche in jeder Teilaufgabe anzuwenden sind. Können wir die Stärken von LLMs und Graphensuche kombinieren, um kosteneffiziente Werkzeugpfade zu finden? Wir schlagen einen dreistufigen Ansatz „CoSTA*“ vor, der LLMs nutzt, um einen Teilaufgabenbaum zu erstellen, der dabei hilft, einen Graphen von KI-Werkzeugen für die gegebene Aufgabe zu beschneiden, und dann eine A*-Suche auf dem kleinen Teilgraphen durchführt, um einen Werkzeugpfad zu finden. Um die Gesamtkosten und Qualität besser auszubalancieren, kombiniert CoSTA* beide Metriken jedes Werkzeugs für jede Teilaufgabe, um die A*-Suche zu steuern. Die Ausgabe jeder Teilaufgabe wird dann durch ein Vision-Language-Modell (VLM) bewertet, wobei ein Fehler eine Aktualisierung der Kosten und Qualität des Werkzeugs für die Teilaufgabe auslöst. Somit kann die A*-Suche schnell von Fehlern zurückkehren, um andere Pfade zu erkunden. Darüber hinaus kann CoSTA* automatisch zwischen Modalitäten über Teilaufgaben hinweg wechseln, um eine bessere Kosten-Qualitäts-Abwägung zu erreichen. Wir entwickeln einen neuartigen Benchmark für anspruchsvolle mehrstufige Bildbearbeitung, auf dem CoSTA* sowohl in Bezug auf Kosten als auch Qualität die besten Bildbearbeitungsmodelle oder -agenten übertrifft und vielseitige Abwägungen basierend auf Benutzerpräferenzen ermöglicht.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (LVLMs) haben vielversprechende Ansätze für die Planung von verkörperten Aufgaben gezeigt, doch sie kämpfen mit grundlegenden Herausforderungen wie Abhängigkeitsbeschränkungen und Effizienz. Bestehende Ansätze optimieren entweder ausschließlich die Aktionsauswahl oder nutzen Weltmodelle während der Inferenz, ohne die Vorteile des Lernens, die Welt zu modellieren, als Mittel zur Verbesserung der Planungsfähigkeiten zu berücksichtigen. Wir schlagen Dual Preference Optimization (D^2PO) vor, ein neues Lernframework, das die Zustandsprädiktion und die Aktionsauswahl gemeinsam durch Präferenzlernen optimiert und es LVLMs ermöglicht, die Dynamik der Umgebung für eine bessere Planung zu verstehen. Um automatisch Trajektorien und schrittweise Präferenzdaten ohne menschliche Annotation zu sammeln, führen wir einen Baum-Suchmechanismus für umfangreiche Exploration durch Versuch und Irrtum ein. Umfangreiche Experimente auf VoTa-Bench zeigen, dass unsere auf D^2PO basierende Methode bestehende Ansätze und GPT-4o bei der Anwendung auf Qwen2-VL (7B), LLaVA-1.6 (7B) und LLaMA-3.2 (11B) deutlich übertrifft und dabei überlegene Aufgaben-Erfolgsraten mit effizienteren Ausführungspfaden erreicht.
Aktuelle Methoden zur Bildgenerierung und -bearbeitung verarbeiten Textanweisungen in erster Linie als direkte Eingaben, ohne visuelle Komposition und explizite Operationen zu berücksichtigen. Wir präsentieren Generation Chain-of-Thought (GoT), ein neuartiges Paradigma, das die Generierung und Bearbeitung durch einen expliziten Sprachdenkprozess ermöglicht, bevor Bilder ausgegeben werden. Dieser Ansatz transformiert die konventionelle Text-zu-Bild-Generierung und -Bearbeitung in ein durch Denkprozesse geleitetes Framework, das semantische Beziehungen und räumliche Anordnungen analysiert. Wir definieren die Formulierung von GoT und erstellen groß angelegte GoT-Datensätze mit über 9 Millionen Proben, die detaillierte Denkketten zur Erfassung semantisch-räumlicher Beziehungen enthalten. Um die Vorteile von GoT zu nutzen, implementieren wir ein einheitliches Framework, das Qwen2.5-VL zur Generierung von Denkketten mit einem end-to-end Diffusionsmodell kombiniert, das durch unser neuartiges Semantic-Spatial Guidance Module erweitert wird. Experimente zeigen, dass unser GoT-Framework sowohl bei Generierungs- als auch bei Bearbeitungsaufgaben hervorragende Leistungen erzielt und signifikante Verbesserungen gegenüber den Baselines aufweist. Darüber hinaus ermöglicht unser Ansatz die interaktive visuelle Generierung, bei der Benutzer explizit Denkschritte anpassen können, um präzise Bildanpassungen vorzunehmen. GoT bahnt eine neue Richtung für den denkprozessgesteuerten visuellen Generierungs- und Bearbeitungsprozess ein und erzeugt Bilder, die besser mit der menschlichen Absicht übereinstimmen. Um zukünftige Forschung zu fördern, stellen wir unsere Datensätze, Code und vortrainierte Modelle öffentlich unter https://github.com/rongyaofang/GoT zur Verfügung.
Dieses Paper stellt SANA-Sprint vor, ein effizientes Diffusionsmodell für ultraschnelle Text-zu-Bild (T2I)-Generierung. SANA-Sprint basiert auf einem vortrainierten Basismodell und wird durch hybride Destillation erweitert, wodurch die Inferenzschritte drastisch von 20 auf 1-4 reduziert werden. Wir führen drei zentrale Innovationen ein: (1) Wir schlagen einen trainingsfreien Ansatz vor, der ein vortrainiertes Flow-Matching-Modell für die kontinuierliche Zeitkonsistenzdestillation (sCM) transformiert, wodurch kostspieliges Training von Grund auf vermieden und eine hohe Trainingseffizienz erreicht wird. Unsere hybride Destillationsstrategie kombiniert sCM mit latenter adversarieller Destillation (LADD): sCM gewährleistet die Ausrichtung am Lehrermodell, während LADD die Einzelschrittgenerationsqualität verbessert. (2) SANA-Sprint ist ein einheitliches, schrittadaptives Modell, das eine hochwertige Generierung in 1-4 Schritten erreicht, wodurch schrittspezifisches Training entfällt und die Effizienz gesteigert wird. (3) Wir integrieren ControlNet mit SANA-Sprint für die Echtzeit-Interaktionsbildgenerierung, was eine sofortige visuelle Rückmeldung für Benutzerinteraktionen ermöglicht. SANA-Sprint setzt eine neue Pareto-Grenze im Geschwindigkeits-Qualitäts-Kompromiss und erreicht mit 7,59 FID und 0,74 GenEval in nur einem Schritt state-of-the-art Leistung – übertrifft dabei FLUX-schnell (7,94 FID / 0,71 GenEval) und ist 10x schneller (0,1s vs. 1,1s auf H100). Es erreicht auch 0,1s (T2I) und 0,25s (ControlNet) Latenz für 1024 x 1024 Bilder auf H100 und 0,31s (T2I) auf einer RTX 4090, was seine außergewöhnliche Effizienz und sein Potenzial für KI-gestützte Verbraucheranwendungen (AIPC) unterstreicht. Code und vortrainierte Modelle werden Open-Source bereitgestellt.
Wir stellen VisualPRM vor, ein fortschrittliches multimodales Process Reward Model (PRM) mit 8 Milliarden Parametern, das die Fähigkeiten bestehender Multimodaler Großer Sprachmodelle (MLLMs) in Bezug auf das logische Denken über verschiedene Modellgrößen und -familien hinweg durch Best-of-N (BoN)-Evaluierungsstrategien verbessert. Konkret steigert unser Modell die Leistung beim logischen Denken von drei Arten von MLLMs und vier verschiedenen Modellgrößen. Selbst bei der Anwendung auf das hochleistungsfähige InternVL2.5-78B erzielt es eine Verbesserung von 5,9 Punkten über sieben multimodale Denkbenchmarks hinweg. Experimentelle Ergebnisse zeigen, dass unser Modell im Vergleich zu Outcome Reward Models und Self-Consistency während der BoN-Evaluierung eine überlegene Leistung aufweist. Um das Training multimodaler PRMs zu erleichtern, haben wir einen multimodalen Prozessüberwachungsdatensatz, VisualPRM400K, mithilfe einer automatisierten Datenpipeline erstellt. Für die Evaluierung multimodaler PRMs schlagen wir VisualProcessBench vor, einen Benchmark mit menschlich annotierten schrittweisen Korrektheitslabels, um die Fähigkeiten von PRMs zur Erkennung fehlerhafter Schritte in multimodalen Denkaufgaben zu messen. Wir hoffen, dass unsere Arbeit zukünftige Forschungen inspirieren und zur Entwicklung von MLLMs beitragen kann. Unser Modell, die Daten und der Benchmark sind unter https://internvl.github.io/blog/2025-03-13-VisualPRM/ veröffentlicht.
Text-to-Image-Diffusionsmodelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Inhalte aus Textprompts erzielt. Ihre Abhängigkeit von öffentlich verfügbaren Daten und der zunehmende Trend des Datenaustauschs zur Feinabstimmung machen diese Modelle jedoch besonders anfällig für Data-Poisoning-Angriffe. In dieser Arbeit stellen wir den Silent Branding Attack vor, eine neuartige Methode des Data Poisoning, die Text-to-Image-Diffusionsmodelle manipuliert, um Bilder mit bestimmten Markenlogos oder Symbolen zu erzeugen, ohne dass Texttrigger erforderlich sind. Wir stellen fest, dass, wenn bestimmte visuelle Muster wiederholt in den Trainingsdaten vorkommen, das Modell lernt, diese natürlich in seinen Ausgaben zu reproduzieren, selbst ohne Erwähnung im Prompt. Dies nutzend, entwickeln wir einen automatisierten Data-Poisoning-Algorithmus, der Logos unauffällig in Originalbilder einfügt und sicherstellt, dass sie sich natürlich einfügen und unentdeckt bleiben. Modelle, die auf diesem vergifteten Datensatz trainiert werden, erzeugen Bilder, die Logos enthalten, ohne die Bildqualität oder die Textausrichtung zu beeinträchtigen. Wir validieren unseren Silent Branding Attack experimentell in zwei realistischen Szenarien auf groß angelegten, hochwertigen Bilddatensätzen und Stil-Personalisierungsdatensätzen und erzielen hohe Erfolgsraten, selbst ohne spezifischen Texttrigger. Menschliche Bewertungen und quantitative Metriken, einschließlich der Logoerkennung, zeigen, dass unsere Methode Logos unbemerkt einbetten kann.
Die Entwicklung von Text-zu-Bild (T2I)-Generierungsmodellen, die sowohl schnell als auch qualitativ hochwertig sampeln können, stellt eine vielversprechende Forschungsrichtung dar. Bisherige Studien konzentrierten sich typischerweise entweder auf die Verbesserung der visuellen Qualität der synthetisierten Bilder auf Kosten der Sampling-Effizienz oder auf die drastische Beschleunigung des Samplings ohne Verbesserung der generativen Fähigkeiten des Basismodells. Darüber hinaus konnten nahezu alle Inferenzmethoden keine stabile Leistung gleichzeitig sowohl bei Diffusionsmodellen (DMs) als auch bei visuellen autoregressiven Modellen (ARMs) gewährleisten. In diesem Artikel stellen wir ein neuartiges Plug-and-Play-Inferenzparadigma vor, CoRe^2, das aus drei Teilprozessen besteht: Collect, Reflect und Refine. CoRe^2 sammelt zunächst Trajektorien der klassifikatorfreien Führung (CFG) und verwendet dann die gesammelten Daten, um ein schwaches Modell zu trainieren, das die leicht zu erlernenden Inhalte widerspiegelt und gleichzeitig die Anzahl der Funktionsauswertungen während der Inferenz halbiert. Anschließend nutzt CoRe^2 eine schwache-zu-starke Führung, um die bedingte Ausgabe zu verfeinern und dadurch die Fähigkeit des Modells zur Erzeugung von hochfrequenten und realistischen Inhalten zu verbessern, die für das Basismodell schwer zu erfassen sind. Nach unserem besten Wissen ist CoRe^2 das erste Modell, das sowohl Effizienz als auch Effektivität über eine breite Palette von DMs, einschließlich SDXL, SD3.5 und FLUX, sowie ARMs wie LlamaGen demonstriert. Es hat signifikante Leistungsverbesserungen auf HPD v2, Pick-of-Pic, Drawbench, GenEval und T2I-Compbench gezeigt. Darüber hinaus kann CoRe^2 nahtlos mit dem state-of-the-art Z-Sampling integriert werden und übertrifft dieses um 0,3 und 0,16 auf PickScore und AES, während es eine Zeitersparnis von 5,64 Sekunden mit SD3.5 erreicht. Der Code ist unter https://github.com/xie-lab-ml/CoRe/tree/main veröffentlicht.
Das Erlernen von 4D-Sprachfeldern, um zeitabhängige, offene Sprachabfragen in dynamischen Szenen zu ermöglichen, ist für viele reale Anwendungen von entscheidender Bedeutung. Während LangSplat erfolgreich CLIP-Features in 3D-Gauß-Darstellungen verankert und dabei Präzision und Effizienz in statischen 3D-Szenen erreicht, fehlt ihm die Fähigkeit, dynamische 4D-Felder zu verarbeiten, da CLIP, das für statische Bild-Text-Aufgaben entwickelt wurde, keine zeitlichen Dynamiken in Videos erfassen kann. Reale Umgebungen sind von Natur aus dynamisch, wobei sich die Semantik von Objekten im Laufe der Zeit verändert. Der Aufbau eines präzisen 4D-Sprachfelds erfordert die Erfassung von pixelgenauen, objektbezogenen Video-Features, was aktuelle Vision-Modelle nur schwer leisten können. Um diese Herausforderungen zu bewältigen, schlagen wir 4D LangSplat vor, das 4D-Sprachfelder lernt, um zeitunabhängige oder zeitabhängige offene Vokabularabfragen in dynamischen Szenen effizient zu handhaben. 4D LangSplat umgeht das Erlernen des Sprachfelds aus Vision-Features und lernt stattdessen direkt aus Texten, die aus objektbezogenen Videobeschreibungen über Multimodale Große Sprachmodelle (MLLMs) generiert werden. Konkret schlagen wir eine multimodale objektbezogene Video-Prompting-Methode vor, die aus visuellen und textuellen Prompts besteht und MLLMs dazu anleitet, detaillierte, zeitlich konsistente und hochwertige Beschreibungen für Objekte in einem Video zu generieren. Diese Beschreibungen werden mithilfe eines Großen Sprachmodells in hochwertige Satz-Embeddings kodiert, die dann als pixelgenaue, objektspezifische Feature-Supervision dienen und offene Vokabular-Textabfragen durch gemeinsame Embedding-Räume ermöglichen. Da Objekte in 4D-Szenen fließende Übergänge zwischen Zuständen aufweisen, schlagen wir weiterhin ein statusverformbares Netzwerk vor, um diese kontinuierlichen Veränderungen über die Zeit effektiv zu modellieren. Unsere Ergebnisse über mehrere Benchmarks hinweg zeigen, dass 4D LangSplat präzise und effiziente Ergebnisse sowohl für zeitabhängige als auch für zeitunabhängige offene Vokabularabfragen erzielt.
Dieses Papier präsentiert unsere Arbeit an der Light-R1-Serie, wobei Modelle, Daten und Code veröffentlicht werden. Zunächst konzentrieren wir uns auf das Training von langen COT-Modellen von Grund auf, insbesondere ausgehend von Modellen, die ursprünglich keine langen COT-Fähigkeiten besaßen. Mit einem Lehrplan-Trainingsrezept, das aus zweistufigem SFT und semi-on-policy DPO besteht, trainieren wir unser Modell Light-R1-32B aus Qwen2.5-32B-Instruct, was zu einer überlegenen mathematischen Leistung im Vergleich zu DeepSeek-R1-Distill-Qwen-32B führt. Obwohl Light-R1-32B ausschließlich auf mathematischen Daten trainiert wurde, zeigt es eine starke Generalisierung in anderen Domänen. In der anschließenden Phase dieser Arbeit heben wir den signifikanten Nutzen des für die zweite SFT-Stufe konstruierten 3k-Datensatzes zur Verbesserung anderer Modelle hervor. Durch das Feinabstimmen von DeepSeek-R1-Distilled-Modellen mit diesem Datensatz erhalten wir neue SOTA-Modelle in 7B und 14B, während das 32B-Modell, Light-R1-32B-DS, vergleichbar mit QwQ-32B und DeepSeek-R1 abschnitt. Darüber hinaus erweitern wir unsere Arbeit durch die Anwendung von Reinforcement Learning, speziell GRPO, auf lange COT-Modelle, um die Argumentationsleistung weiter zu verbessern. Wir trainieren erfolgreich unser finales Light-R1-14B-DS mit RL und erreichen SOTA-Leistung unter den 14B-Parameter-Modellen in der Mathematik. Mit AIME24- und 25-Werten von 74,0 bzw. 60,2 übertrifft Light-R1-14B-DS sogar viele 32B-Modelle und DeepSeek-R1-Distill-Llama-70B. Sein RL-Training zeigt auch das erwartete Verhalten, mit einer gleichzeitigen Zunahme der Antwortlänge und der Belohnungspunktzahl. Die Light-R1-Serie validiert das Training von langen COT-Modellen von Grund auf, zeigt die Kunst in SFT-Daten und veröffentlicht SOTA-Modelle aus RL.
Diffusionsbasierte generative Modelle haben die objektorientierte Bildbearbeitung revolutioniert, doch ihr Einsatz bei der realistischen Objektentfernung und -einfügung wird weiterhin durch Herausforderungen wie das komplexe Zusammenspiel physikalischer Effekte und unzureichende gepaarte Trainingsdaten behindert. In dieser Arbeit stellen wir OmniPaint vor, ein einheitliches Framework, das die Objektentfernung und -einfügung als interdependente Prozesse neu konzipiert, anstatt sie als isolierte Aufgaben zu betrachten. Durch die Nutzung eines vortrainierten Diffusions-Priors sowie einer progressiven Trainingspipeline, die aus der Optimierung initialer gepaarter Proben und anschließender großflächiger ungepaarter Verfeinerung via CycleFlow besteht, erreicht OmniPaint eine präzise Vordergrundeliminierung und nahtlose Objekteinfügung, während die Szenengeometrie und intrinsischen Eigenschaften treu bewahrt werden. Darüber hinaus bietet unser neuartiges CFD-Metrik eine robuste, referenzfreie Bewertung der Kontextkonsistenz und Objekthalluzination und setzt damit einen neuen Maßstab für hochwertige Bildbearbeitung. Projektseite: https://yeates.github.io/OmniPaint-Page/
Vision-Language-Modelle haben bei vielen wahrnehmungsorientierten Aufgaben erhebliche Fortschritte erzielt, doch ihre Fortschritte bei auf logisches Denken ausgerichteten Aufgaben scheinen aufgrund des Mangels an hochwertigen und vielfältigen Trainingsdaten begrenzt zu sein. In dieser Arbeit zielen wir darauf ab, das Problem der Knappheit von multimodalen Datensätzen mit Fokus auf logisches Denken zu beheben. Wir stellen VisualWebInstruct vor – einen neuartigen Ansatz, der Suchmaschinen nutzt, um einen vielfältigen und hochwertigen Datensatz zu erstellen, der mehrere Disziplinen wie Mathematik, Physik, Finanzen, Chemie usw. abdeckt. Ausgehend von sorgfältig ausgewählten 30.000 Ausgangsbildern verwenden wir die Google-Bildersuche, um Websites zu identifizieren, die ähnliche Bilder enthalten. Wir sammeln und verarbeiten die HTMLs von über 700.000 einzigartigen URL-Quellen. Durch eine Pipeline aus Inhaltsextraktion, Filterung und Synthese erstellen wir einen Datensatz von etwa 900.000 Frage-Antwort-Paaren, wobei 40 % visuelle Frage-Antwort-Paare und der Rest textbasierte Frage-Antwort-Paare sind. Modelle, die auf VisualWebInstruct feinabgestimmt wurden, zeigen signifikante Leistungssteigerungen: (1) Das Training ausgehend von Llava-OV-mid führt zu absoluten Gewinnen von 10-20 Prozentpunkten über verschiedene Benchmarks hinweg, (2) das Training ausgehend von MAmmoTH-VL zeigt einen absoluten Gewinn von 5 Prozent. Unser bestes Modell, MAmmoTH-VL2, zeigt Spitzenleistungen innerhalb der 10-Milliarden-Parameter-Klasse auf MMMU-Pro-std (40,7 %), MathVerse (42,6 %) und DynaMath (55,7 %). Diese bemerkenswerten Ergebnisse unterstreichen die Effektivität unseres Datensatzes bei der Verbesserung der logischen Fähigkeiten von VLMs für komplexe multimodale Aufgaben.
Jüngste Fortschritte bei Large Reasoning Models (LRMs), insbesondere solchen, die Chain-of-Thought-Reasoning (CoT) nutzen, haben völlig neue Möglichkeiten für die maschinelle Übersetzung (MT) eröffnet. Dieses Positionspapier argumentiert, dass LRMs sowohl traditionelle neuronale MT als auch LLM-basierte MT-Paradigmen grundlegend verändert haben, indem sie Übersetzung als eine dynamische Denkaufgabe neu definieren, die kontextuelles, kulturelles und sprachliches Verständnis und Schlussfolgerungen erfordert. Wir identifizieren drei grundlegende Verschiebungen: 1) kontextuelle Kohärenz, bei der LRMs Mehrdeutigkeiten auflösen und Diskursstrukturen durch explizites Schlussfolgern über satzübergreifende und komplexe Kontexte oder sogar Kontextmangel bewahren; 2) kulturelle Intentionalität, die es Modellen ermöglicht, Ausgaben anzupassen, indem sie Sprecherabsicht, Publikumserwartungen und soziolinguistische Normen ableiten; 3) Selbstreflexion, bei der LRMs während der Inferenzzeit Selbstreflexion durchführen können, um potenzielle Fehler in der Übersetzung, insbesondere in extrem verrauschten Fällen, zu korrigieren, was eine bessere Robustheit im Vergleich zur einfachen X->Y-Übersetzung zeigt. Wir untersuchen verschiedene Übersetzungsszenarien, darunter stilistische Übersetzung, dokumentenbasierte Übersetzung und multimodale Übersetzung, indem wir empirische Beispiele vorstellen, die die Überlegenheit von LRMs in der Übersetzung demonstrieren. Wir identifizieren auch mehrere interessante Phänomene für LRMs in der MT, wie z.B. Auto-Pivot-Übersetzung, sowie kritische Herausforderungen wie Überlokalisierung in der Übersetzung und Inferenzeffizienz. Abschließend denken wir, dass LRMs Übersetzungssysteme nicht nur als Textkonverter, sondern als mehrsprachige kognitive Agenten neu definieren, die in der Lage sind, über die Bedeutung jenseits des Textes nachzudenken. Dieser Paradigmenwechsel erinnert uns daran, Probleme in der Übersetzung über traditionelle Übersetzungsszenarien hinaus in einem viel breiteren Kontext mit LRMs zu betrachten – was wir damit erreichen können.
Jüngste Fortschritte bei Large Language Models (LLMs) mit langem Kontext haben sich hauptsächlich auf die Verarbeitung umfangreicher Eingabekontexte konzentriert, was zu bedeutenden Fortschritten im Verständnis langer Kontexte geführt hat. Der ebenso kritische Aspekt der Erzeugung langer Ausgaben hat jedoch vergleichsweise weniger Aufmerksamkeit erhalten. Dieses Papier plädiert für einen Paradigmenwechsel in der NLP-Forschung hin zur Bewältigung der Herausforderungen der langen Ausgabegenerierung. Aufgaben wie das Schreiben von Romanen, langfristige Planung und komplexes logisches Denken erfordern, dass Modelle umfangreiche Kontexte verstehen und kohärenten, kontextuell reichhaltigen und logisch konsistenten Langtext erzeugen. Diese Anforderungen verdeutlichen eine kritische Lücke in den aktuellen Fähigkeiten von LLMs. Wir betonen die Bedeutung dieses wenig erforschten Bereichs und fordern gezielte Bemühungen zur Entwicklung grundlegender LLMs, die auf die Erzeugung hochwertiger, langer Ausgaben zugeschnitten sind, die ein immenses Potenzial für reale Anwendungen bergen.
Videogenerationsmodelle haben im vergangenen Jahr bemerkenswerte Fortschritte erzielt. Die Qualität von KI-generierten Videos verbessert sich kontinuierlich, allerdings auf Kosten einer größeren Modellgröße, erhöhter Datenmenge und eines höheren Bedarfs an Trainingsrechenleistung. In diesem Bericht stellen wir Open-Sora 2.0 vor, ein kommerziell einsetzbares Videogenerationsmodell, das für nur 200.000 US-Dollar trainiert wurde. Mit diesem Modell zeigen wir, dass die Kosten für das Training eines erstklassigen Videogenerationsmodells stark kontrollierbar sind. Wir erläutern alle Techniken, die zu diesem Effizienzdurchbruch beigetragen haben, darunter Datenkuratierung, Modellarchitektur, Trainingsstrategie und Systemoptimierung. Laut menschlicher Bewertungsergebnisse und VBench-Scores ist Open-Sora 2.0 vergleichbar mit weltweit führenden Videogenerationsmodellen, einschließlich des Open-Source-Modells HunyuanVideo und des proprietären Modells Runway Gen-3 Alpha. Indem wir Open-Sora 2.0 vollständig Open-Source machen, möchten wir den Zugang zu fortschrittlicher Videogenerationstechnologie demokratisieren und so breitere Innovation und Kreativität in der Inhaltserstellung fördern. Alle Ressourcen sind öffentlich verfügbar unter: https://github.com/hpcaitech/Open-Sora.
In dieser Arbeit untersuchen wir empirisch Diffusion Transformers (DiTs) für die Text-zu-Bild-Generierung, mit einem Fokus auf architektonische Entscheidungen, Text-Konditionierungsstrategien und Trainingsprotokolle. Wir bewerten eine Reihe von DiT-basierten Architekturen – einschließlich PixArt-Stil- und MMDiT-Varianten – und vergleichen sie mit einer Standard-DiT-Variante, die direkt verkettete Text- und Rausch-Eingaben verarbeitet. Überraschenderweise zeigen unsere Ergebnisse, dass die Leistung der Standard-DiT mit denen der spezialisierten Modelle vergleichbar ist, während sie eine überlegene Parameter-Effizienz aufweist, insbesondere bei der Skalierung. Durch die Nutzung einer schichtenweisen Parameter-Sharing-Strategie erreichen wir eine weitere Reduzierung der Modellgröße um 66 % im Vergleich zu einer MMDiT-Architektur, bei minimalem Leistungsverlust. Basierend auf einer detaillierten Analyse kritischer Komponenten wie Text-Encoder und Variational Auto-Encoders (VAEs) führen wir DiT-Air und DiT-Air-Lite ein. Mit überwachtem und belohnungsbasiertem Fein-Tuning erreicht DiT-Air state-of-the-art Leistung auf GenEval und T2I CompBench, während DiT-Air-Lite trotz seiner kompakten Größe äußerst wettbewerbsfähig bleibt und die meisten bestehenden Modelle übertrifft.
Pixel Grounding, das Aufgaben wie die Segmentierung von Referenzausdrücken (Referring Expression Segmentation, RES) umfasst, hat aufgrund seines immensen Potenzials, die Lücke zwischen visuellen und sprachlichen Modalitäten zu überbrücken, erhebliche Aufmerksamkeit erregt. Fortschritte in diesem Bereich werden jedoch derzeit durch die Einschränkungen bestehender Datensätze behindert, darunter begrenzte Objektkategorien, unzureichende textuelle Vielfalt und ein Mangel an hochwertigen Annotationen. Um diese Einschränkungen zu überwinden, stellen wir GroundingSuite vor, das Folgendes umfasst: (1) ein automatisiertes Datenannotationsframework, das mehrere Vision-Language-Modelle (VLM) nutzt; (2) einen groß angelegten Trainingsdatensatz mit 9,56 Millionen vielfältigen Referenzausdrücken und ihren entsprechenden Segmentierungen; und (3) einen sorgfältig kuratierten Evaluierungsbenchmark, bestehend aus 3.800 Bildern. Der GroundingSuite-Trainingsdatensatz ermöglicht erhebliche Leistungssteigerungen, sodass darauf trainierte Modelle state-of-the-art Ergebnisse erzielen. Konkret wird ein cIoU von 68,9 auf gRefCOCO und ein gIoU von 55,3 auf RefCOCOm erreicht. Darüber hinaus zeigt das GroundingSuite-Annotationsframework eine überlegene Effizienz im Vergleich zur derzeit führenden Methode zur Datenannotation, d. h. es ist 4,5-mal schneller als GLaMM.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer textbasierter Aufgaben gezeigt. Multimodales Denken, das die Integration visueller und textueller Informationen erfordert, bleibt jedoch eine erhebliche Herausforderung. Bestehende visuell-sprachliche Modelle haben oft Schwierigkeiten, visuelle Inhalte effektiv zu analysieren und zu interpretieren, was zu suboptimalen Leistungen bei komplexen Denkaufgaben führt. Darüber hinaus behindert das Fehlen umfassender Benchmarks die genaue Bewertung multimodaler Denkfähigkeiten. In diesem Artikel stellen wir R1-Onevision vor, ein multimodales Denkmodell, das die Lücke zwischen visueller Wahrnehmung und tiefgreifendem Denken schließen soll. Um dies zu erreichen, schlagen wir eine cross-modale Denkpipeline vor, die Bilder in formale textuelle Repräsentationen umwandelt und damit präzises sprachbasiertes Denken ermöglicht. Mit dieser Pipeline erstellen wir den R1-Onevision-Datensatz, der detaillierte, schrittweise multimodale Denkanmerkungen über verschiedene Domänen hinweg bietet. Wir entwickeln das R1-Onevision-Modell weiter durch überwachtes Fein-Tuning und Verstärkungslernen, um fortgeschrittene Denkfähigkeiten und robuste Generalisierungsfähigkeiten zu fördern. Um die multimodale Denkleistung über verschiedene Stufen hinweg umfassend zu bewerten, führen wir R1-Onevision-Bench ein, einen Benchmark, der an menschliche Bildungsstufen angepasst ist und Prüfungen von der Mittelschule über die Universität und darüber hinaus abdeckt. Experimentelle Ergebnisse zeigen, dass R1-Onevision Spitzenleistungen erzielt und Modelle wie GPT-4o und Qwen2.5-VL auf mehreren anspruchsvollen multimodalen Denkbenchmarks übertrifft.
Destillierte Diffusionsmodelle leiden unter einer entscheidenden Einschränkung: eine reduzierte Probenvielfalt im Vergleich zu ihren Basismodellen. In dieser Arbeit zeigen wir, dass trotz dieses Vielfaltsverlusts destillierte Modelle die grundlegenden Konzeptrepräsentationen der Basismodelle beibehalten. Wir demonstrieren Control Distillation – bei dem Kontrollmechanismen wie Concept Sliders und LoRAs, die auf Basismodellen trainiert wurden, nahtlos auf destillierte Modelle übertragen werden können und umgekehrt, wodurch die Kontrolle effektiv ohne erneutes Training destilliert wird. Diese Bewahrung der repräsentativen Struktur veranlasste uns, die Mechanismen des Vielfaltskollapses während der Destillation zu untersuchen. Um zu verstehen, wie die Destillation die Vielfalt beeinflusst, führen wir Diffusion Target (DT) Visualization ein, ein Analyse- und Debugging-Tool, das zeigt, wie Modelle endgültige Ausgaben in Zwischenschritten vorhersagen. Durch DT-Visualisierung identifizieren wir Generierungsartefakte, Inkonsistenzen und zeigen, dass die anfänglichen Diffusionszeitpunkte die Ausgabevielfalt unverhältnismäßig stark bestimmen, während spätere Schritte hauptsächlich Details verfeinern. Basierend auf diesen Erkenntnissen führen wir Diversity Distillation ein – einen hybriden Inferenzansatz, der das Basismodell strategisch nur für den ersten kritischen Zeitpunkt einsetzt, bevor es zum effizienten destillierten Modell wechselt. Unsere Experimente zeigen, dass diese einfache Modifikation nicht nur die Vielfaltfähigkeiten von Basis- zu destillierten Modellen wiederherstellt, sondern diese überraschenderweise übertrifft, während sie nahezu die Recheneffizienz der destillierten Inferenz beibehält, alles ohne zusätzliches Training oder Modifikationen. Unser Code und unsere Daten sind verfügbar unter https://distillation.baulab.info.
Jüngste Fortschritte in der Videogenerierung ermöglichen die Erstellung realistischer, minutenlanger Einzelaufnahmen mit skalierbaren Diffusions-Transformatoren. Allerdings erfordern narrative Videos in der realen Welt mehrschüssige Szenen mit visueller und dynamischer Konsistenz über die Aufnahmen hinweg. In dieser Arbeit stellen wir Long Context Tuning (LCT) vor, ein Trainingsparadigma, das das Kontextfenster vortrainierter Einzelaufnahme-Videodiffusionsmodelle erweitert, um Szenenkonsistenz direkt aus den Daten zu lernen. Unser Ansatz erweitert vollständige Aufmerksamkeitsmechanismen von einzelnen Aufnahmen auf alle Aufnahmen innerhalb einer Szene, integriert verschachtelte 3D-Positions-Einbettungen und eine asynchrone Rauschstrategie, wodurch sowohl gemeinsame als auch autoregressive Aufnahmegenerierung ohne zusätzliche Parameter ermöglicht wird. Modelle mit bidirektionaler Aufmerksamkeit nach LCT können weiter mit kontextkausaler Aufmerksamkeit feinabgestimmt werden, was eine effiziente autoregressive Generierung mit KV-Cache ermöglicht. Experimente zeigen, dass Einzelaufnahme-Modelle nach LCT kohärente mehrschüssige Szenen erzeugen können und aufkommende Fähigkeiten wie kompositionelle Generierung und interaktive Aufnahmenerweiterung aufweisen, was den Weg für praktischere visuelle Inhaltserstellung ebnet. Weitere Details finden Sie unter https://guoyww.github.io/projects/long-context-video/.
Während wir zu immer größeren Modellen des maschinellen Lernens skalieren, führen die inhärenten häufigen Synchronisationsanforderungen datenparalleler Ansätze zu erheblichen Verlangsamungen, was eine kritische Herausforderung für die weitere Skalierung darstellt. Neuere Arbeiten entwickeln einen Ansatz (DiLoCo), der die Synchronisationsanforderungen reduziert, ohne die Modellqualität zu beeinträchtigen. Diese Arbeiten analysieren jedoch nicht sorgfältig, wie sich das Verhalten von DiLoCo mit der Modellgröße ändert. In dieser Arbeit untersuchen wir das Skalierungsgesetzverhalten von DiLoCo beim Training von LLMs unter einem festen Rechenbudget. Wir konzentrieren uns darauf, wie algorithmische Faktoren, einschließlich der Anzahl der Modellreplikate, Hyperparameter und des Token-Budgets, das Training auf Weise beeinflussen, die durch Skalierungsgesetze genau vorhergesagt werden können. Wir stellen fest, dass DiLoCo sowohl vorhersehbar als auch robust mit der Modellgröße skaliert. Bei guter Abstimmung skaliert DiLoCo besser als datenparalleles Training mit der Modellgröße und kann datenparalleles Training sogar bei kleinen Modellgrößen übertreffen. Unsere Ergebnisse zeigen einen allgemeineren Nutzen von DiLoCo als bisher dokumentiert, einschließlich erhöhter optimaler Batch-Größen, verbesserter Downstream-Generalisierung mit der Skalierung und verbessertem Evaluationsverlust bei einem festen Token-Budget.
Die Videogenerierung hat mit dem Aufkommen tiefer generativer Modelle, insbesondere von Diffusionsmodellen, bemerkenswerte Fortschritte erzielt. Während bestehende Methoden in der Erzeugung hochwertiger Videos aus Textanweisungen oder Einzelbildern hervorragend sind, bleibt die personalisierte Multi-Subjekt-Videogenerierung eine weitgehend unerforschte Herausforderung. Diese Aufgabe umfasst die Synthese von Videos, die mehrere unterschiedliche Subjekte integrieren, die jeweils durch separate Referenzbilder definiert sind, wobei zeitliche und räumliche Konsistenz gewährleistet wird. Aktuelle Ansätze stützen sich hauptsächlich darauf, Subjektbilder auf Schlüsselwörter in Textanweisungen abzubilden, was Mehrdeutigkeiten einführt und ihre Fähigkeit zur effektiven Modellierung von Subjektbeziehungen einschränkt. In diesem Artikel stellen wir CINEMA vor, ein neuartiges Framework für die kohärente Multi-Subjekt-Videogenerierung, das auf Multimodalen Großen Sprachmodellen (MLLM) basiert. Unser Ansatz eliminiert die Notwendigkeit expliziter Korrespondenzen zwischen Subjektbildern und Textentitäten, reduziert Mehrdeutigkeiten und verringert den Annotationsaufwand. Indem wir MLLM nutzen, um Subjektbeziehungen zu interpretieren, ermöglicht unsere Methode Skalierbarkeit und die Verwendung großer und vielfältiger Datensätze für das Training. Darüber hinaus kann unser Framework auf eine variable Anzahl von Subjekten konditioniert werden, was eine größere Flexibilität bei der Erstellung personalisierter Inhalte bietet. Durch umfangreiche Evaluierungen zeigen wir, dass unser Ansatz die Subjektkonsistenz und die Gesamtkohärenz von Videos signifikant verbessert und den Weg für fortgeschrittene Anwendungen im Storytelling, interaktiven Medien und der personalisierten Videogenerierung ebnet.
Diese Arbeit untersucht die Machbarkeit der Verwendung von Text-zu-Bild-Modellen in einem Zero-Shot-Setup zur Generierung von Bildern für Taxonomie-Konzepte. Während textbasierte Methoden zur Anreicherung von Taxonomien gut etabliert sind, bleibt das Potenzial der visuellen Dimension unerforscht. Um dies zu adressieren, schlagen wir einen umfassenden Benchmark für die Taxonomie-Bildgenerierung vor, der die Fähigkeiten von Modellen bewertet, Taxonomie-Konzepte zu verstehen und relevante, hochwertige Bilder zu generieren. Der Benchmark umfasst Common-Sense- und zufällig ausgewählte WordNet-Konzepte sowie die von LLM generierten Vorhersagen. Die 12 Modelle werden anhand von 9 neuartigen, taxonomiebezogenen Text-zu-Bild-Metriken und menschlichem Feedback bewertet. Darüber hinaus führen wir erstmals eine paarweise Bewertung mit GPT-4-Feedback für die Bildgenerierung ein. Die experimentellen Ergebnisse zeigen, dass die Rangfolge der Modelle sich signifikant von Standard-T2I-Aufgaben unterscheidet. Playground-v2 und FLUX schneiden durchweg über alle Metriken und Teilmengen hinweg besser ab, während der retrieverbasierte Ansatz schlecht abschneidet. Diese Erkenntnisse unterstreichen das Potenzial zur Automatisierung der Kuratierung strukturierter Datenressourcen.
Vision Language Models (VLMs) haben ein erhebliches Potenzial in verschiedenen nachgelagerten Aufgaben gezeigt, darunter Bild-/Videogenerierung, Visuelles Frage-Antworten, Multimodale Chatbots und Videoverständnis. Diese Modelle haben jedoch oft Schwierigkeiten mit grundlegenden Bildtransformationen. Diese Arbeit untersucht das Bildverständnis von VLMs, insbesondere CLIP von OpenAI und SigLIP von Google. Unsere Ergebnisse zeigen, dass diese Modelle kein Verständnis für multiple Bildtransformationen aufweisen. Um diese Studie zu ermöglichen, haben wir eine erweiterte Version des Flickr8k-Datensatzes erstellt, bei der jedes Bild mit einer detaillierten Beschreibung der angewandten Transformation gepaart ist. Wir untersuchen weiterhin, wie sich diese Schwäche auf nachgelagerte Aufgaben auswirkt, insbesondere bei der Bildbearbeitung, und bewerten die Leistung von state-of-the-art Image2Image-Modellen bei einfachen Transformationen.
Stiltransfer beinhaltet die Übertragung des Stils eines Referenzbildes auf den Inhalt eines Zielbildes. Jüngste Fortschritte in LoRA-basierten (Low-Rank Adaptation) Methoden haben vielversprechende Ergebnisse bei der effektiven Erfassung des Stils eines einzelnen Bildes gezeigt. Diese Ansätze stehen jedoch weiterhin vor erheblichen Herausforderungen wie Inhaltsinkonsistenz, Stilfehlausrichtung und Inhaltsdurchsickern. In diesem Papier analysieren wir umfassend die Grenzen der standardmäßigen Diffusionsparametrisierung, die darauf abzielt, Rauschen vorherzusagen, im Kontext des Stiltransfers. Um diese Probleme zu lösen, führen wir ConsisLoRA ein, eine LoRA-basierte Methode, die sowohl die Inhalts- als auch die Stilkonsistenz verbessert, indem die LoRA-Gewichte optimiert werden, um das Originalbild anstelle von Rauschen vorherzusagen. Wir schlagen außerdem eine zweistufige Trainingsstrategie vor, die das Lernen von Inhalt und Stil aus dem Referenzbild entkoppelt. Um sowohl die globale Struktur als auch die lokalen Details des Inhaltsbildes effektiv zu erfassen, führen wir eine schrittweise Verlustübergangsstrategie ein. Zusätzlich präsentieren wir eine Inferenzführungsmethode, die eine kontinuierliche Steuerung der Inhalts- und Stilstärken während der Inferenz ermöglicht. Durch sowohl qualitative als auch quantitative Bewertungen zeigt unsere Methode signifikante Verbesserungen in der Inhalts- und Stilkonsistenz bei gleichzeitiger effektiver Reduzierung von Inhaltsdurchsickern.
Wir stellen ARPG vor, ein neuartiges visuelles autoregressives Modell, das eine randomisierte parallele Generierung ermöglicht und damit die inhärenten Einschränkungen konventioneller Rasterordnungsansätze adressiert, die die Inferenzeffizienz und Zero-Shot-Generalisierung aufgrund ihrer sequenziellen, vordefinierten Token-Generierungsreihenfolge behindern. Unsere zentrale Erkenntnis ist, dass eine effektive Modellierung in zufälliger Reihenfolge eine explizite Anleitung zur Bestimmung der Position des nächsten vorhergesagten Tokens erfordert. Zu diesem Zweck schlagen wir ein neuartiges geführtes Decoding-Framework vor, das die Positionsführung von der Inhaltsdarstellung entkoppelt und sie separat als Abfragen und Schlüssel-Wert-Paare kodiert. Durch die direkte Integration dieser Anleitung in den kausalen Aufmerksamkeitsmechanismus ermöglicht unser Ansatz ein vollständig zufälliges Training und eine zufällige Generierung, wodurch die Notwendigkeit einer bidirektionalen Aufmerksamkeit entfällt. Folglich generalisiert ARPG problemlos auf Zero-Shot-Aufgaben wie Bildinpainting, Outpainting und Auflösungserweiterung. Darüber hinaus unterstützt es die parallele Inferenz durch die gleichzeitige Verarbeitung mehrerer Abfragen unter Verwendung eines gemeinsamen KV-Caches. Auf dem ImageNet-1K 256-Benchmark erreicht unser Ansatz einen FID von 1,94 mit nur 64 Sampling-Schritten und erzielt dabei eine mehr als 20-fache Steigerung des Durchsatzes bei gleichzeitiger Reduzierung des Speicherverbrauchs um über 75 % im Vergleich zu repräsentativen aktuellen autoregressiven Modellen ähnlicher Größe.
Fortgeschrittene generative Modelle sind hervorragend in der Synthese von Bildern, verlassen sich jedoch oft auf textbasierte Konditionierung. Visuelle Designer arbeiten jedoch häufig jenseits der Sprache und lassen sich direkt von bestehenden visuellen Elementen inspirieren. In vielen Fällen repräsentieren diese Elemente nur Fragmente eines potenziellen Konzepts – wie ein einzigartig strukturierter Flügel oder eine spezifische Frisur – und dienen als Inspiration für den Künstler, um zu erkunden, wie sie kreativ zu einem kohärenten Ganzen zusammengeführt werden können. Um diesem Bedarf gerecht zu werden, stellen wir ein generatives Framework vor, das eine partielle Menge von benutzerbereitgestellten visuellen Komponenten nahtlos in eine kohärente Komposition integriert und gleichzeitig die fehlenden Teile abtastet, die benötigt werden, um ein plausibles und vollständiges Konzept zu generieren. Unser Ansatz baut auf einem starken und bisher wenig erforschten Repräsentationsraum auf, der aus IP-Adapter+ extrahiert wird, auf dem wir IP-Prior trainieren, ein leichtgewichtiges Flow-Matching-Modell, das kohärente Kompositionen basierend auf domänenspezifischen Priors synthetisiert und dadurch vielfältige und kontextbewusste Generationen ermöglicht. Zusätzlich präsentieren wir eine LoRA-basierte Feinabstimmungsstrategie, die die Prompt-Treue in IP-Adapter+ für eine bestimmte Aufgabe signifikant verbessert und damit den üblichen Kompromiss zwischen Rekonstruktionsqualität und Prompt-Treue adressiert.
Vision Transformer-Modelle zeigen immense Leistungsfähigkeit, bleiben jedoch für das menschliche Verständnis undurchsichtig, was Herausforderungen und Risiken für praktische Anwendungen mit sich bringt. Während frühere Forschungsarbeiten versucht haben, diese Modelle durch Eingabeattribution und Neuronrollenanalyse zu entschlüsseln, gab es eine bemerkenswerte Lücke in der Berücksichtigung von Ebeneninformationen und dem ganzheitlichen Pfad des Informationsflusses über die Ebenen hinweg. In diesem Artikel untersuchen wir die Bedeutung einflussreicher Neuronpfade innerhalb von Vision Transformern, wobei ein Neuronpfad eine Sequenz von Neuronen vom Modelleingang zum -ausgang darstellt, die den Modellschluss am stärksten beeinflusst. Wir schlagen zunächst ein gemeinsames Einflussmaß vor, um den Beitrag einer Gruppe von Neuronen zum Modellergebnis zu bewerten. Darüber hinaus bieten wir einen schichtenprogressiven Ansatz zur Lokalisierung von Neuronen an, der effizient das einflussreichste Neuron in jeder Ebene auswählt, um den entscheidenden Neuronpfad vom Eingang zum Ausgang innerhalb des Zielmodells zu entdecken. Unsere Experimente demonstrieren die Überlegenheit unserer Methode bei der Identifizierung des einflussreichsten Neuronpfads, entlang dem der Informationsfluss verläuft, gegenüber bestehenden Baseline-Lösungen. Zusätzlich zeigen die Neuronpfade, dass Vision Transformer spezifische innere Arbeitsmechanismen für die Verarbeitung visueller Informationen innerhalb derselben Bildkategorie aufweisen. Wir analysieren weiterhin die Schlüsseleffekte dieser Neuronen auf die Bildklassifikationsaufgabe und zeigen, dass die gefundenen Neuronpfade bereits die Modellfähigkeit für nachgelagerte Aufgaben bewahren, was auch Licht auf reale Anwendungen wie Modellbeschneidung werfen könnte. Die Projektwebsite inklusive Implementierungscode ist unter https://foundation-model-research.github.io/NeuronPath/ verfügbar.
In diesem Artikel schlagen wir einen allgemeinen Rahmen für universelle Zero-Shot-Zielnavigation vor. Bestehende Zero-Shot-Methoden bauen Inferenzframeworks auf großen Sprachmodellen (LLM) für spezifische Aufgaben auf, die sich stark in der Gesamtpipeline unterscheiden und nicht über verschiedene Zieltypen hinweg verallgemeinern können. Um das Ziel der universellen Zero-Shot-Navigation zu erreichen, schlagen wir eine einheitliche Graph-Darstellung vor, um verschiedene Ziele zu vereinheitlichen, einschließlich Objektkategorie, Instanzbild und Textbeschreibung. Wir wandeln auch die Beobachtung des Agenten in einen online gepflegten Szenengraphen um. Mit dieser konsistenten Szenen- und Zielrepräsentation bewahren wir die meisten strukturellen Informationen im Vergleich zu reinem Text und können LLM für explizite graphenbasierte Schlussfolgerungen nutzen. Konkret führen wir zu jedem Zeitpunkt eine Graph-Zuordnung zwischen dem Szenengraphen und dem Zielgraphen durch und schlagen verschiedene Strategien vor, um langfristige Erkundungsziele basierend auf unterschiedlichen Zuordnungszuständen zu generieren. Der Agent sucht zunächst iterativ nach einem Teilgraphen des Ziels, wenn keine Übereinstimmung vorliegt. Bei teilweiser Übereinstimmung nutzt der Agent dann Koordinatenprojektion und Ankerpaarausrichtung, um die Zielposition abzuleiten. Schließlich werden Szenengraphenkorrektur und Zielverifikation für eine perfekte Übereinstimmung angewendet. Wir führen auch einen Blacklist-Mechanismus ein, um einen robusten Wechsel zwischen den Phasen zu ermöglichen. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass unser UniGoal mit einem einzigen Modell state-of-the-art Zero-Shot-Leistungen bei drei untersuchten Navigationsaufgaben erzielt und sogar aufgabenspezifische Zero-Shot-Methoden und überwachte universelle Methoden übertrifft.
Automatisierte Spracherkennungsmodelle (ASR) haben an Bedeutung gewonnen für Anwendungen wie Untertitelung, Sprachübersetzung und Live-Transkription. Diese Arbeit untersucht Whisper und zwei Modellvarianten: eine für Live-Sprachstreaming optimierte und eine für Offline-Transkription. Bemerkenswerterweise wurde festgestellt, dass diese Modelle halluzinierte Inhalte erzeugen, was die Zuverlässigkeit der Transkription verringert. Darüber hinaus weisen größere Modellvarianten eine erhöhte Latenz auf und stellen Herausforderungen für die Bereitstellung auf ressourcenbeschränkten Geräten dar. Diese Studie analysiert die Gemeinsamkeiten und Unterschiede zwischen drei Whisper-Modellen und untersucht qualitativ deren spezifische Fähigkeiten. Anschließend quantifiziert diese Studie die Auswirkungen der Modellquantisierung auf die Latenz und bewertet deren Eignung für den Einsatz auf Edge-Geräten. Unter Verwendung des Open-Source-Datensatzes LibriSpeech evaluiert diese Arbeit die Wortfehlerrate (WER) sowie die Latenzanalyse von whispercpp mit drei Quantisierungsmethoden (INT4, INT5, INT8). Die Ergebnisse zeigen, dass die Quantisierung die Latenz um 19\% und die Modellgröße um 45\% reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Diese Erkenntnisse bieten Einblicke in die optimalen Anwendungsfälle verschiedener Whisper-Modelle und die Möglichkeiten der Bereitstellung auf Edge-Geräten. Der gesamte Code, die Datensätze und Implementierungsdetails sind in einem öffentlichen GitHub-Repository verfügbar: https://github.com/allisonandreyev/WhisperQuantization.git.
Große Sprachmodelle (LLMs) dringen zunehmend in das Leben von Kindern ein – sei es durch die Nutzung seitens der Eltern, in Schulen oder über Peer-Netzwerke – doch die aktuelle Forschung zu KI-Ethik und Sicherheit berücksichtigt die inhaltsbezogenen Risiken für Minderjährige nicht ausreichend. In diesem Artikel beleuchten wir diese Lücken anhand einer Fallstudie eines LLM-basierten Chatbots, der in einer Mittelschule eingesetzt wurde, und zeigen auf, wie Schüler das System genutzt und teilweise missbraucht haben. Aufbauend auf diesen Erkenntnissen schlagen wir eine neue Taxonomie inhaltsbezogener Risiken für Minderjährige vor und stellen MinorBench vor, einen Open-Source-Benchmark, der entwickelt wurde, um LLMs hinsichtlich ihrer Fähigkeit zu bewerten, unsichere oder unangemessene Anfragen von Kindern abzulehnen. Wir evaluieren sechs bekannte LLMs unter verschiedenen System-Prompts und zeigen erhebliche Unterschiede in ihrer Einhaltung von Kindersicherheitsstandards auf. Unsere Ergebnisse liefern praktische Ansätze für robustere, kindgerechte Sicherheitsmechanismen und unterstreichen die Dringlichkeit, KI-Systeme so anzupassen, dass junge Nutzer geschützt werden.
Trotz vielversprechender Leistungen bei Open-Source-Modellen für große visuell-sprachliche Modelle (LVLMs) scheitern transferbasierte gezielte Angriffe häufig bei kommerziellen Black-Box-LVLMs. Die Analyse gescheiterter adversarieller Perturbationen zeigt, dass die erlernten Perturbationen typischerweise aus einer gleichmäßigen Verteilung stammen und klare semantische Details vermissen, was zu unerwünschten Reaktionen führt. Dieses kritische Fehlen semantischer Informationen führt dazu, dass kommerzielle LVLMs die Perturbation entweder vollständig ignorieren oder die eingebettete Semantik falsch interpretieren, wodurch der Angriff scheitert. Um diese Probleme zu überwinden, stellen wir fest, dass die Identifizierung von Kernsemantikobjekten ein zentrales Ziel für Modelle ist, die mit verschiedenen Datensätzen und Methoden trainiert wurden. Diese Erkenntnis motiviert unseren Ansatz, der die semantische Klarheit verbessert, indem explizite semantische Details in lokalen Regionen kodiert werden, wodurch Interoperabilität sichergestellt und feinere Merkmale erfasst werden, und indem Modifikationen auf semantisch reiche Bereiche konzentriert werden, anstatt sie gleichmäßig anzuwenden. Um dies zu erreichen, schlagen wir eine einfache, aber äußerst effektive Lösung vor: In jedem Optimierungsschritt wird das adversarielle Bild zufällig mit einem kontrollierten Seitenverhältnis und Maßstab beschnitten, skaliert und dann im Einbettungsraum mit dem Zielbild ausgerichtet. Experimentelle Ergebnisse bestätigen unsere Hypothese. Unsere adversariellen Beispiele, die mit lokal aggregierten Perturbationen erstellt wurden, die sich auf entscheidende Regionen konzentrieren, zeigen eine überraschend gute Übertragbarkeit auf kommerzielle LVLMs, einschließlich GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet und sogar Denkmodelle wie o1, Claude-3.7-thinking und Gemini-2.0-flash-thinking. Unser Ansatz erreicht Erfolgsraten von über 90 % bei GPT-4.5, 4o und o1 und übertrifft damit alle bisherigen state-of-the-art Angriffsmethoden deutlich. Unsere optimierten adversariellen Beispiele unter verschiedenen Konfigurationen und Trainingscode sind verfügbar unter https://github.com/VILA-Lab/M-Attack.
Objekt-Halluzination (OH) wird als eine der größten Herausforderungen in Bezug auf die Vertrauenswürdigkeit von großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) anerkannt. Jüngste Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) deuten darauf hin, dass interne Zustände, wie beispielsweise versteckte Zustände, die „Gesamtwahrhaftigkeit“ generierter Antworten kodieren. Es bleibt jedoch weitgehend unerforscht, wie interne Zustände in LVLMs funktionieren und ob sie als „pro-Token“-Halluzinationsindikatoren dienen könnten, was für die Minderung von OH entscheidend wäre. In diesem Papier führen wir zunächst eine eingehende Untersuchung der internen Zustände von LVLMs in Bezug auf OH-Probleme durch und entdecken, dass (1) interne Zustände von LVLMs hochspezifische pro-Token-Indikatoren für Halluzinationsverhalten sind. Darüber hinaus (2) kodieren verschiedene LVLMs universelle Muster von Halluzinationen in gemeinsamen latenten Unterräumen, was darauf hindeutet, dass es „generische wahrhaftige Richtungen“ gibt, die von verschiedenen LVLMs geteilt werden. Basierend auf diesen Erkenntnissen schlagen wir Truthful-Guided Pre-Intervention (TruthPrInt) vor, das zunächst die wahrhaftige Richtung der LVLM-Decodierung lernt und dann eine wahrhaftigkeitsgeleitete Intervention zur Inferenzzeit während der LVLM-Decodierung anwendet. Weiterhin schlagen wir ComnHallu vor, um sowohl die übergreifende LVLM- als auch die übergreifende Daten-Halluzinationserkennungstransferierbarkeit zu verbessern, indem Halluzinations-latente Unterräume konstruiert und ausgerichtet werden. Wir evaluieren TruthPrInt in umfangreichen experimentellen Settings, einschließlich In-Domain- und Out-of-Domain-Szenarien, über beliebte LVLMs und OH-Benchmarks. Die experimentellen Ergebnisse zeigen, dass TruthPrInt state-of-the-art-Methoden deutlich übertrifft. Der Code wird unter https://github.com/jinhaoduan/TruthPrInt verfügbar sein.
Toxizität in Diskussionen über Bug-Reports stellt erhebliche Herausforderungen für die kollaborative Dynamik der Open-Source-Softwareentwicklung dar. Bug-Reports sind entscheidend für die Identifizierung und Behebung von Fehlern, doch ihre inhärent problemorientierte Natur und emotional aufgeladene Kontexte machen sie anfällig für toxische Interaktionen. Diese Studie untersucht Toxizität in GitHub-Bug-Reports durch eine qualitative Analyse von 203 Bug-Threads, darunter 81 toxische. Unsere Ergebnisse zeigen, dass Toxizität häufig aus Fehlwahrnehmungen der Fehlerschwere und -priorität, ungelösten Frustrationen mit Tools und Lücken in der professionellen Kommunikation entsteht. Diese toxischen Interaktionen unterbrechen nicht nur produktive Diskussionen, sondern verringern auch die Wahrscheinlichkeit von umsetzbaren Ergebnissen, wie der Verknüpfung von Issues mit Pull-Requests. Unsere vorläufigen Erkenntnisse bieten umsetzbare Empfehlungen zur Verbesserung der Bug-Behebung durch die Reduzierung von Toxizität.
Minibatch Optimal Transport-Kopplung begradigt Pfade im unkonditionellen Flow-Matching. Dies führt zu einem rechnerisch weniger aufwändigen Inferenzprozess, da weniger Integrationsschritte und weniger komplexe numerische Löser eingesetzt werden können, wenn zur Testzeit eine gewöhnliche Differentialgleichung numerisch gelöst wird. Im konditionellen Setting hingegen reicht Minibatch Optimal Transport nicht aus. Dies liegt daran, dass die standardmäßige Optimal-Transport-Abbildung die Bedingungen ignoriert, was zu einer konditionell verzerrten Prior-Verteilung während des Trainings führt. Zur Testzeit haben wir jedoch keinen Zugriff auf diese verzerrte Prior-Verteilung, sondern stichproben aus der vollständigen, unverzerrten Prior-Verteilung. Diese Diskrepanz zwischen Training und Test führt zu einer suboptimalen Leistung. Um diese Lücke zu schließen, schlagen wir Conditional Optimal Transport (C²OT) vor, das einen konditionellen Gewichtungsterm in die Kostenmatrix einfügt, wenn die Optimal-Transport-Zuordnung berechnet wird. Experimente zeigen, dass diese einfache Anpassung sowohl mit diskreten als auch kontinuierlichen Bedingungen in 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 und ImageNet-256x256 funktioniert. Unsere Methode schneidet insgesamt besser ab als die bestehenden Baselines über verschiedene Funktionsauswertungsbudgets hinweg. Der Code ist verfügbar unter https://hkchengrex.github.io/C2OT.
Wir stellen PerCoV2 vor, ein neuartiges und offenes System zur ultra-niedrigbitratigen Wahrnehmungsbildkompression, das für Anwendungen mit begrenzter Bandbreite und Speicherkapazität entwickelt wurde. Aufbauend auf früheren Arbeiten von Careil et al. erweitert PerCoV2 die ursprüngliche Formulierung auf das Stable Diffusion 3-Ökosystem und verbessert die Effizienz der Entropiekodierung durch explizite Modellierung der diskreten Hyper-Latent-Bildverteilung. Zu diesem Zweck führen wir einen umfassenden Vergleich aktueller autoregressiver Methoden (VAR und MaskGIT) für die Entropiemodellierung durch und bewerten unseren Ansatz auf dem groß angelegten MSCOCO-30k-Benchmark. Im Vergleich zu früheren Arbeiten erreicht PerCoV2 (i) eine höhere Bildtreue bei noch niedrigeren Bitraten, während es eine wettbewerbsfähige wahrnehmungsbezogene Qualität beibehält, (ii) verfügt über einen hybriden Generierungsmodus für weitere Bitrateneinsparungen und (iii) basiert ausschließlich auf öffentlich zugänglichen Komponenten. Code und trainierte Modelle werden unter https://github.com/Nikolai10/PerCoV2 veröffentlicht.
Dieses Papier stellt PoseLess vor, ein neuartiges Framework zur Steuerung von Roboterhänden, das die Notwendigkeit expliziter Pose-Schätzung eliminiert, indem es 2D-Bilder direkt auf Gelenkwinkel abbildet, indem projizierte Repräsentationen verwendet werden. Unser Ansatz nutzt synthetische Trainingsdaten, die durch randomisierte Gelenkkonfigurationen generiert werden, was eine Null-Shot-Generalisierung auf reale Szenarien und einen Transfer über Morphologien hinweg von Roboter- zu menschlichen Händen ermöglicht. Durch die Projektion visueller Eingaben und den Einsatz eines transformer-basierten Decoders erreicht PoseLess eine robuste, latenzarme Steuerung und adressiert dabei Herausforderungen wie Tiefenambiguität und Datenknappheit. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung bei der Genauigkeit der Gelenkwinkelvorhersage, ohne auf menschlich annotierte Datensätze angewiesen zu sein.
Classifier-free Guidance hat sich zu einem Standardwerkzeug für die bedingte Generierung mit Denoising-Diffusionsmodellen entwickelt. Dennoch fehlt ein umfassendes Verständnis von Classifier-free Guidance. In dieser Arbeit führen wir eine empirische Studie durch, um eine neue Perspektive auf Classifier-free Guidance zu bieten. Konkret gehen wir nicht nur auf Classifier-free Guidance ein, sondern kehren zu den Wurzeln zurück, d.h. zur Classifier Guidance, identifizieren die zentrale Annahme für die Herleitung und führen eine systematische Studie durch, um die Rolle des Classifiers zu verstehen. Wir stellen fest, dass sowohl Classifier Guidance als auch Classifier-free Guidance die bedingte Generierung erreichen, indem sie die Denoising-Diffusionspfade von Entscheidungsgrenzen wegdrücken, d.h. von Bereichen, in denen bedingte Informationen typischerweise verflochten und schwer zu erlernen sind. Basierend auf diesem classifier-zentrierten Verständnis schlagen wir einen generischen Nachbearbeitungsschritt vor, der auf Flow-Matching aufbaut, um die Lücke zwischen der gelernten Verteilung eines vortrainierten Denoising-Diffusionsmodells und der realen Datenverteilung zu verringern, insbesondere in der Nähe der Entscheidungsgrenzen. Experimente auf verschiedenen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes.