papers.description
Jüngste Fortschritte bei großen multimodalen generativen Modellen haben beeindruckende Fähigkeiten in der multimodalen Generierung, einschließlich Bild- und Videogenerierung, demonstriert. Diese Modelle basieren typischerweise auf mehrstufigen Frameworks wie Diffusion und Flow Matching, was ihre Inferenzeffizienz grundsätzlich einschränkt (erfordert 40-100 Number of Function Evaluations, NFE). Während verschiedene Methoden mit wenigen Schritten eine Beschleunigung der Inferenz anstreben, weisen bestehende Lösungen klare Grenzen auf. Prominente, auf Distillation basierende Methoden wie progressive und Consistency Distillation erfordern entweder ein iteratives Distillationsverfahren oder zeigen eine signifikante Verschlechterung bei sehr wenigen Schritten (< 4 NFE). Gleichzeitig führt die Integration von adversarialem Training in die Distillation (z.B. DMD/DMD2 und SANA-Sprint) zur Leistungssteigerung zu Trainingsinstabilität, erhöhter Komplexität und hohem GPU-Speicherbedarf aufgrund der zusätzlich trainierten Modelle. Daher schlagen wir TwinFlow vor, ein einfaches yet effektives Framework zum Training von 1-Schritt-Generatormodellen, das den Bedarf an festen vortrainierten Teacher-Modellen umgeht und standardmäßige adversariale Netzwerke während des Trainings vermeidet, was es ideal für den Aufbau großskaliger, effizienter Modelle macht. Bei Text-zu-Bild-Aufgaben erreicht unsere Methode einen GenEval-Score von 0,83 in 1 NFE und übertrifft damit starke Baselines wie SANA-Sprint (ein GAN-Loss-basiertes Framework) und RCGM (ein Consistency-basiertes Framework). Bemerkenswerterweise demonstrieren wir die Skalierbarkeit von TwinFlow durch Full-Parameter-Training auf Qwen-Image-20B und wandeln es in einen effizienten Few-Step-Generator um. Mit nur 1 NFE erreicht unser Ansatz auf den Benchmarks GenEval und DPG-Bench die Leistung des ursprünglichen 100-NFE-Modells, reduziert die Rechenkosten um das 100-fache bei nur geringem Qualitätsverlust. Die Projektseite ist verfügbar unter https://zhenglin-cheng.com/twinflow.
Instruktionsbasierte Bildbearbeitung hat sich als bedeutendes Forschungsfeld etabliert. Dank der Fortschritte bei generativen Basismodellen für Bilder wurden bereits hohe ästhetische Qualitäten erreicht, wodurch die Fähigkeit, Anweisungen zu befolgen, zur primären Herausforderung geworden ist. Bestehende Ansätze verbessern die Anweisungstreue durch überwachtes oder bestärkendes Lernen, doch die Erfolgsquote bei einzelnen Bearbeitungsschritten bleibt aufgrund inhärenter Stochastik und mangelnder Deliberation begrenzt. In dieser Arbeit schlagen wir ein deliberatives Bearbeitungsframework vor, das 'denkt', während es bearbeitet. Dieses simuliert die menschliche kognitive Schleife, indem es iterativ einen Denk-während-Bearbeiten-Zyklus ausführt: Ergebnisse kritisieren und Anweisungen verfeinern, gefolgt von einer Wiederholung der Generierung, bis das Ergebnis zufriedenstellend ist. Konkret trainieren wir ein einziges MLLM, EditThinker, das als Reasoning-Engine dieses Frameworks agiert und gemeinsam die Kritikpunktzahl, den Denkprozess und die verfeinerten Anweisungen erzeugt. Wir setzen bestärkendes Lernen ein, um das Denken des EditThinker mit seiner Bearbeitung in Einklang zu bringen und so zielgerichtetere Verbesserungen der Anweisungen zu generieren. Umfangreiche Experimente auf vier Benchmarks zeigen, dass unser Ansatz die Anweisungstreue beliebiger Bildbearbeitungsmodelle signifikant und mit großem Abstand verbessert. Wir werden unser Framework zur Datenerstellung, die Datensätze und die Modelle veröffentlichen, um der Gemeinschaft zugutekommen.
Reinforcement Learning hat sich als Paradigma für das Nachtraining großer Sprachmodelle etabliert, um deren Fähigkeiten im logischen Denken zu steigern. Solche Ansätze berechnen einen Advantage-Wert für jede Stichprobe, der eine bessere oder schlechtere Leistung als erwartet widerspiegelt und somit sowohl positive als auch negative Signale für das Training liefert. Die wahllose Vermischung dieser beiden Signale in bestehenden Methoden, insbesondere bereits in frühen Phasen, kann jedoch zu mehrdeutiger Steuerung und begrenzten Verbesserungen führen. Um dieses Problem zu adressieren, schlagen wir **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) vor, einen adaptiven Curriculum-Mechanismus basierend auf Advantage-Signalen. Der vorgeschlagene Mechanismus startet Imitationslernen ausschließlich mit Proben mit positivem Advantage, um eine robuste Grundlage zu schaffen, und führt anschließend negative Signale ein, um differenzierende Fähigkeiten zu entwickeln, was die Generalisierung in komplexen Szenarien verbessert. Kompatibel mit verschiedenen Optimierungsmethoden wie GRPO, PPO, RLOO und Reinforce++, erzielt unser Ansatz durchgängig stabile und signifikante Verbesserungen in mathematischen Reasoning-Aufgaben und generalisiert effektiv auf multimodale Reasoning-Szenarien mit grafischen Benutzeroberflächen (GUI), wodurch er sich als vielseitiges und robustes Optimierungsframework etabliert.
Konsistente Bildgenerierung erfordert die zuverlässige Bewahrung von Identitäten, Stilen und logischer Kohärenz über mehrere Bilder hinweg, was für Anwendungen wie Geschichtenerzählen und Charakterdesign unerlässlich ist. Überwachte Trainingsansätze haben mit dieser Aufgabe Schwierigkeiten, da es an groß angelegten Datensätzen mangelt, die visuelle Konsistenz erfassen, und wegen der Komplexität der Modellierung menschlicher Wahrnehmungspräferenzen. In diesem Beitrag argumentieren wir, dass Reinforcement Learning (RL) eine vielversprechende Alternative bietet, indem es Modellen ermöglicht, komplexe und subjektive visuelle Kriterien auf datenfreie Weise zu erlernen. Um dies zu erreichen, führen wir PaCo-RL ein, einen umfassenden Rahmen, der ein spezielles Konsistenz-Belohnungsmodell mit einem effizienten RL-Algorithmus kombiniert. Die erste Komponente, PaCo-Reward, ist ein paarweiser Konsistenzbewerter, der auf einem groß angelegten Datensatz trainiert wurde, der durch automatische Unterbildpaarung erstellt wurde. Es bewertet die Konsistenz durch einen generativen, autoregressiven Bewertungsmechanismus, der durch aufgabenbewusste Anweisungen und CoT-Begründungen erweitert wird. Die zweite Komponente, PaCo-GRPO, nutzt eine neuartige auflösungsentkoppelte Optimierungsstrategie, um die RL-Kosten erheblich zu senken, zusammen mit einem logarithmisch gezähmten Multi-Reward-Aggregationsmechanismus, der eine ausgewogene und stabile Belohnungsoptimierung gewährleistet. Umfangreiche Experimente über zwei repräsentative Teilaufgaben hinweg zeigen, dass PaCo-Reward die Übereinstimmung mit der menschlichen Wahrnehmung visueller Konsistenz signifikant verbessert und PaCo-GRPO mit verbesserter Trainings Effizienz und Stabilität state-of-the-art Konsistenzleistung erreicht. Zusammen unterstreichen diese Ergebnisse das Potenzial von PaCo-RL als praktische und skalierbare Lösung für konsistente Bildgenerierung. Die Projektseite ist verfügbar unter https://x-gengroup.github.io/HomePage_PaCo-RL/.
Wir stellen EMMA vor, eine effiziente und vereinheitlichte Architektur für multimodales Verstehen, Generieren und Bearbeiten. Konkret besteht EMMA hauptsächlich aus: 1) Einem effizienten Autoencoder mit einem Kompressionsverhältnis von 32:1, der die für die Generierung benötigte Token-Anzahl erheblich reduziert. Dies gewährleistet zudem die Trainingsbalance zwischen Verstehens- und Generierungsaufgaben, indem das gleiche Kompressionsverhältnis auf Bilder angewendet wird. 2) Kanalkonkatierung anstelle von Token-Konkatierung zwischen visuellen Verstehens- und Generierungstokens, was die visuellen Token in vereinheitlichten Architekturen weiter reduziert. 3) Einem geteilten-und-entkoppelten Netzwerk, das gegenseitige Verbesserungen zwischen Aufgaben ermöglicht und gleichzeitig aufgabenspezifische Modellierungsanforderungen erfüllt. 4) Einem Mixture-of-Experts-Mechanismus für den visuellen Verstehens-Encoder, der die Wahrnehmungsfähigkeiten bei geringem Parameterzuwachs wesentlich verbessert. Umfangreiche Experimente zeigen, dass EMMA-4B state-of-the-art vereinheitlichte multimodale Ansätze (z.B. BAGEL-7B) in Effizienz und Leistung signifikant übertreffen kann, während es gleichzeitig wettbewerbsfähige Ergebnisse im Vergleich zu neueren multimodalen Verstehens- und Generierungsexperten (z.B. Qwen3-VL und Qwen-Image) erzielt. Wir sind überzeugt, dass EMMA eine solide Grundlage für die zukünftige Entwicklung vereinheitlichter multimodaler Architekturen legt.
Die Erstellung von Charakteranimationen, die den Produktionsstandards von Studios entsprechen, bleibt trotz jüngster Fortschritte eine Herausforderung. Bestehende Ansätze können Bewegungen aus einem Quellvideo auf ein Referenzbild übertragen, scheitern jedoch häufig daran, die strukturelle Treue und zeitliche Konsistenz in komplexen Szenarien mit anspruchsvollen Bewegungen und identitätsübergreifenden Animationen zu bewahren. In dieser Arbeit stellen wir SCAIL (Studio-grade Character Animation via In-context Learning) vor, ein Framework, das diese Herausforderungen durch zwei zentrale Innovationen adressiert. Erstens schlagen wir eine neuartige 3D-Posen-Repräsentation vor, die ein robusteres und flexibleres Bewegungssignal liefert. Zweitens führen wir einen Full-Context-Posen-Injektionsmechanismus in einer Diffusion-Transformer-Architektur ein, der eine effektive räumlich-zeitliche Analyse vollständiger Bewegungssequenzen ermöglicht. Um den Anforderungen auf Studio-Niveau gerecht zu werden, entwickelten wir eine kuratierte Datenpipeline, die sowohl Vielfalt als auch Qualität sicherstellt, und etablierten einen umfassenden Benchmark für die systematische Evaluation. Experimente zeigen, dass SCAIL state-of-the-art Leistung erzielt und Charakteranimation in Richtung studio-tauglicher Zuverlässigkeit und Realitätsnähe voranbringt.
Das Nachtraining großer Sprachmodelle stützt sich auf Bestärkendes Lernen, um die Modellfähigkeiten und Ausrichtungsqualität zu verbessern. Allerdings führt das Off-Policy-Trainingsparadigma zu einer Verteilungsverschiebung, die die Policy häufig über den Vertrauensbereich hinausdrängt und damit Trainingsinstabilitäten verursacht, die sich als Fluktuationen der Policy-Entropie und instabile Gradienten äußern. Obwohl PPO-Clip dieses Problem durch Importance-Clipping abmildert, wird die globale Verteilungsverschiebung von Aktionen dennoch vernachlässigt. Um diese Herausforderungen zu bewältigen, schlagen wir vor, das Entropieverhältnis zwischen aktueller und vorheriger Policy als neue globale Metrik zu verwenden, die die relative Änderung der Policy-Exploration während Updates effektiv quantifiziert. Aufbauend auf dieser Metrik führen wir einen Entropie-Verhältnis-Clipping (ERC)-Mechanismus ein, der bidirektionale Beschränkungen für das Entropieverhältnis vorsieht. Dies stabilisiert Policy-Updates auf globaler Verteilungsebene und kompensiert die Unfähigkeit von PPO-Clip, Wahrscheinlichkeitsverschiebungen ungesampelter Aktionen zu regulieren. Wir integrieren ERC in sowohl DAPO- als auch GPPO-Verstärkungslernalgorithmen. Experimente über mehrere Benchmarks hinweg zeigen, dass ERC die Leistung konsistent verbessert.
Die Erzeugung interaktiver und dynamischer 4D-Szenen aus einem einzelnen statischen Bild bleibt eine zentrale Herausforderung. Die meisten bestehenden Methoden des Typs "Generieren-dann-Rekonstruieren" oder "Rekonstruieren-dann-Generieren" entkoppeln Geometrie von Bewegung, was zu raumzeitlichen Inkonsistenzen und schlechter Generalisierung führt. Um diese Probleme zu adressieren, erweitern wir den "Rekonstruieren-dann-Generieren"-Ansatz, um gemeinsam Bewegungsgenerierung und geometrische Rekonstruktion für die 4D-Synthese (MoRe4D) durchzuführen. Wir führen zunächst TrajScene-60K ein, einen umfangreichen Datensatz mit 60.000 Videobeispielen und dichten Punkt-Trajektorien, der die Knappheit hochwertiger 4D-Szenendaten behebt. Darauf aufbauend schlagen wir einen diffusionsbasierten 4D-Szenen-Trajektoriengenerator (4D-STraG) vor, der gemeinsam geometrisch konsistente und bewegungsplausible 4D-Punkttrajektorien erzeugt. Um Einzelansichts-Priorinformationen zu nutzen, entwerfen wir eine tiefengeleitete Bewegungsnormalisierungsstrategie und ein bewegungssensitives Modul für eine effektive Integration von Geometrie und Dynamik. Anschließend schlagen wir ein 4D-View-Synthese-Modul (4D-ViSM) vor, um Videos mit beliebigen Kameratrajektorien aus 4D-Punktverfolgungsrepräsentationen zu rendern. Experimente zeigen, dass MoRe4D hochwertige 4D-Szenen mit multiview-Konsistenz und reichen dynamischen Details aus einem einzelnen Bild erzeugt. Code: https://github.com/Zhangyr2022/MoRe4D.
Mit der stetigen Weiterentwicklung der Bildgenerierungstechnologie haben fortschrittliche Modelle wie GPT-Image-1 und Qwen-Image bemerkenswerte Fortschritte bei der Text-Bild-Konsistenz und im Weltwissen erzielt. Dennoch bleiben diese Modelle bei der fotorealistischen Bildgenerierung hinter den Erwartungen zurück. Selbst bei einfachen Text-zu-Bild-Aufgaben neigen sie dazu, "künstlich" wirkende Bilder mit deutlichen KI-Artefakten zu erzeugen, die sich oft durch "übermäßig glatte Haut" und "ölige Gesichtsreflexe" auszeichnen. Um das ursprüngliche Ziel einer "von der Realität nicht zu unterscheidenden" Generierung wiederaufzugreifen, schlagen wir RealGen vor, einen fotorealistischen Text-zu-Bild-Framework. RealGen integriert eine LLM-Komponente zur Prompt-Optimierung und ein Diffusionsmodell für realistische Bildgenerierung. Inspiriert von der adversativen Generierung führt RealGen einen "Detector Reward"-Mechanismus ein, der Artefakte quantifiziert und den Realismusgrad unter Verwendung sowohl semantischer als auch feature-basierter Synthesebild-Detektoren bewertet. Wir nutzen dieses Belohnungssignal mit dem GRPO-Algorithmus, um die gesamte Generierungspipeline zu optimieren und so den Bildrealismus und die Detailtreue erheblich zu steigern. Darüber hinaus schlagen wir RealBench vor, einen automatisierten Evaluierungsmaßstab, der Detector-Scoring und Arena-Scoring einsetzt. Er ermöglicht eine menschenunabhängige Bewertung des Fotorealismus und liefert Ergebnisse, die genauer und besser mit der tatsächlichen Nutzererfahrung übereinstimmen. Experimente zeigen, dass RealGen allgemeine Modelle wie GPT-Image-1 und Qwen-Image sowie spezialisierte fotorealistische Modelle wie FLUX-Krea in Bezug auf Realismus, Detailreichtum und Ästhetik signifikant übertrifft. Der Code ist unter https://github.com/yejy53/RealGen verfügbar.
Effektive Bewertungseinheiten für Vision-Sprach-Modelle (VLMs) sind entscheidend für die Modellentwicklung. Aktuelle Methoden zum Training von VLM-Bewertungseinheiten basieren hauptsächlich auf großangelegten menschlichen Präferenzannotationen. Dieser Ansatz ist jedoch kostspielig, und die Annotationen veralten leicht, da sich die Modelle rasch verbessern. In dieser Arbeit stellen wir ein Framework vor, um ein VLM-Bewertungsmodell ohne menschliche Präferenzannotationen ausschließlich mit selbstsynthetisierten Daten selbst zu trainieren. Unsere Methode ist iterativ und umfasst drei Stufen: (1) Erzeugung diverser multimodaler Instruktions-Antwort-Paare auf unterschiedlichen Qualitätsniveaus, (2) Generierung von Begründungspfaden und Bewertungen für jedes Paar unter Entfernung derjenigen, die nicht unseren erwarteten Qualitätsniveaus entsprechen, und (3) Training auf korrekten Bewerterantworten und deren Begründungspfaden. Wir evaluieren den resultierenden Bewerter auf Multimodal RewardBench und VL-RewardBench über verschiedene Domänen hinweg: Korrektheit, Präferenz, Schlussfolgerung, Sicherheit und visuelle Fragebeantwortung. Unsere Methode verbessert eine Llama-3.2-11B-Multimodal-Bewertungseinheit von 0,38 auf 0,51 in der Gesamtgenauigkeit auf VL-RewardBench und übertrifft häufig deutlich größere Modelle, einschließlich Llama-3.2-90B, GPT-4o und Claude 3.5 Sonnet, mit besonders starken Gewinnen in den Dimensionen Allgemeinwissen, Halluzinationen und Schlussfolgerungen. Die allgemeine Stärke dieser ergebnisse ohne menschliche Annotationen deutet auf das Potenzial für einen zukünftigen Selbstbewerter hin, der sich parallel zu den sich schnell verbessernden VLM-Fähigkeiten weiterentwickelt.
Generative Methoden für 3D-Assets haben in letzter Zeit bemerkenswerte Fortschritte erzielt, doch die intuitive und präzise Steuerung der Objektgeometrie bleibt eine zentrale Herausforderung. Bestehende Ansätze stützen sich überwiegend auf Text- oder Bildvorgaben, die oft an geometrischer Spezifität mangeln: Sprache kann mehrdeutig sein und Bilder sind umständlich zu bearbeiten. In dieser Arbeit stellen wir SpaceControl vor, eine trainingsfreie Testzeit-Methode zur expliziten räumlichen Steuerung der 3D-Generierung. Unser Ansatz akzeptiert eine Vielzahl geometrischer Eingaben, von groben Primitiven bis hin zu detaillierten Netzen, und integriert sich nahtlos in moderne vortrainierte generative Modelle, ohne dass zusätzliches Training erforderlich ist. Ein steuerbarer Parameter ermöglicht es Nutzern, zwischen geometrischer Treue und Ausgabequalität abzuwägen. Umfangreiche quantitative Evaluationen und Nutzerstudien belegen, dass SpaceControl sowohl trainingsbasierte als auch optimierungsbasierte Referenzmethoden in puncto geometrischer Genauigkeit übertrifft und dabei eine hohe visuelle Qualität beibehält. Abschließend präsentieren wir eine interaktive Benutzeroberfläche, die die Online-Bearbeitung von Superquadriken zur direkten Umwandlung in texturierte 3D-Assets ermöglicht und so den praktischen Einsatz in kreativen Workflows erleichtert. Unsere Projektseite finden Sie unter https://spacecontrol3d.github.io/.
Visuell-räumliches Denken ist entscheidend dafür, dass multimodale große Sprachmodelle (MLLMs) Objekteigenschaften und räumliche Beziehungen verstehen können, doch aktuelle Modelle haben nach wie vor Schwierigkeiten mit 3D-bewusstem Schließen. Bisherige Ansätze verbessern typischerweise entweder die Wahrnehmung, indem RGB-Eingaben durch Hilfsmodalitäten wie Tiefeninformationen und Segmentierung angereichert werden, oder das Schließen, indem sie auf räumlichen VQA-Datensätzen trainiert und mittels bestärkendem Lernen verfeinert werden, und behandeln diese beiden Aspekte somit isoliert. In dieser Arbeit untersuchen wir, ob ein vereinheitlichtes MLLM eine intrinsische Fähigkeit zur Verbesserung der räumlichen Wahrnehmung entwickeln und durch adaptives, verschachteltes Schließen eine stärkere räumliche Intelligenz erreichen kann. Wir schlagen COOPER vor, ein vereinheitlichtes MLLM, das Tiefeninformationen und Segmentierung als Hilfsmodalitäten nutzt und in zwei Stufen trainiert wird, um Fähigkeiten zur Erzeugung von Hilfsmodalitäten sowie zu adaptivem, verschachteltem Schließen zu erwerben. COOPER erzielt eine durchschnittliche Verbesserung von 6,91 % beim räumlichen Schließen, bei gleichzeitiger Beibehaltung der allgemeinen Leistungsfähigkeit. Darüber hinaus erreicht sogar eine Variante, die nur für die Erzeugung von Hilfsmodalitäten trainiert wurde, einen Zuwachs von 7,92 % bei der Schätzung von Entfernung und Größe, was darauf hindeutet, dass das Erlernen der Erzeugung von Hilfsmodalitäten dazu beiträgt, räumliches Wissen zu internalisieren und das räumliche Verständnis zu stärken.
Reasoning-zentrische Video-Objektssegmentierung ist eine inhärent komplexe Aufgabe: Die Anfrage bezieht sich oft auf Dynamik, Kausalität und temporale Interaktionen anstatt auf statische Erscheinungsbilder. Bisherige Lösungen reduzieren diese Faktoren jedoch meist auf vereinfachtes Reasoning mit latenten Einbettungen, was die Reasoning-Kette undurchsichtig und im Wesentlichen nicht nachvollziehbar macht. Daher nehmen wir eine explizite Zerlegungsperspektive ein und führen ReVSeg ein, welches Reasoning als sequenzielle Entscheidungen in der nativen Schnittstelle vortrainierter Vision-Language-Modelle (VLMs) ausführt. Anstatt das gesamte Reasoning in eine Ein-Schritt-Vorhersage zu komprimieren, führt ReVSeg drei explizite Operationen aus – semantische Interpretation, temporale Evidenzauswahl und räumliche Verankerung – und richtet diese an vortrainierten Fähigkeiten aus. Weiterhin setzen wir bestärkendes Lernen ein, um die mehrstufige Reasoning-Kette zu optimieren, sodass das Modell seine Entscheidungsqualität anhand ergebnisgesteuerter Signale selbst verbessern kann. Experimentelle Ergebnisse zeigen, dass ReVSeg state-of-the-art Leistungen auf standardisierten Video-Objektssegmentierungs-Benchmarks erreicht und interpretierbare Reasoning-Pfade liefert. Die Projektseite ist unter https://clementine24.github.io/ReVSeg/ verfügbar.
Jüngste Fortschritte bei generativen Videomodellen haben zu bedeutenden Durchbrüchen in der hochauflösenden Videosynthese geführt, insbesondere bei der kontrollierbaren Videogenerierung, bei der das generierte Video auf Text- und Aktionsinputs konditioniert wird, z.B. bei anweisungsgesteuerter Videobearbeitung und Weltmodellierung in der Robotik. Trotz dieser außergewöhnlichen Fähigkeiten halluzinieren kontrollierbare Videomodelle häufig – sie generieren zukünftige Videobilder, die nicht mit der physikalischen Realität übereinstimmen – was ernste Bedenken bei vielen Aufgaben wie der Bewertung von Robotik-Policies und der Planung aufwirft. Allerdings fehlt es modernsten Videomodellen an der Fähigkeit, ihre eigene Konfidenz zu bewerten und auszudrücken, was die Minderung von Halluzinationen behindert. Um diese Herausforderung rigoros anzugehen, schlagen wir C3 vor, eine Unsicherheitsquantifizierungsmethode (UQ) zum Trainieren von kontinuierlich skalierten, kalibrierten, kontrollierbaren Videomodellen für dichte Konfidenzschätzung auf Subpatch-Ebene, die die Unsicherheit in jedem generierten Videobild präzise lokalisiert. Unsere UQ-Methode führt drei Kerninnovationen ein, um Videomodelle in die Lage zu versetzen, ihre Unsicherheit zu schätzen. Erstens entwickelt unsere Methode einen neuartigen Rahmen, der Videomodelle mittels strikt properer Scoring-Regeln auf Korrektheit und Kalibrierung trainiert. Zweitens schätzen wir die Unsicherheit des Videomodells im latenten Raum, wodurch Trainingsinstabilität und prohibitive Trainingskosten vermieden werden, die mit Pixelraum-Ansätzen verbunden sind. Drittens projizieren wir die dichte Unsicherheit des latenten Raums auf interpretierbare Pixel-Unsicherheit im RGB-Raum zur intuitiven Visualisierung, wodurch hochauflösende Unsicherheits-Hitmaps bereitgestellt werden, die unzuverlässige Regionen identifizieren. Durch umfangreiche Experimente mit groß angelegten Robotik-Lern-Datensätzen (Bridge und DROID) und Evaluationen in realen Szenarien zeigen wir, dass unsere Methode nicht nur kalibrierte Unsicherheitsschätzungen innerhalb der Trainingsverteilung liefert, sondern auch eine effektive Out-of-Distribution-Erkennung ermöglicht.
Selbstverbesserung ist ein Ziel, das derzeit das Feld der KI beflügelt, ist jedoch mit Gefahren verbunden und könnte lange dauern, bis es vollständig erreicht ist. Wir plädieren dafür, dass ein erreichbareres und besseres Ziel für die Menschheit darin besteht, die gemeinsame Verbesserung zu maximieren: die Zusammenarbeit zwischen menschlichen Forschern und KIs, um eine gemeinsame Superintelligenz zu erreichen. Das heißt, wir sollten gezielt die Fähigkeit von KI-Systemen verbessern, mit menschlichen Forschern zusammenzuarbeiten, um gemeinsam KI-Forschung von der Ideenfindung bis zum Experiment zu betreiben. Dies soll sowohl die KI-Forschung beschleunigen als auch sowohl KIs als auch Menschen durch ihre Symbiose mit sicherer Superintelligenz ausstatten. Indem wir die Verbesserung menschlicher Forschung in den Kreislauf einbeziehen, gelangen wir nicht nur schneller, sondern auch sicherer dorthin.
Multimodale Dokumentenretrievalsysteme haben deutliche Fortschritte bei der Abgleichung visueller und textueller Inhalte für die semantische Suche gezeigt. Die meisten bestehenden Ansätze bleiben jedoch stark englisch-zentriert, was ihre Effektivität in multilingualen Kontexten einschränkt. In dieser Arbeit stellen wir M3DR (Multilingual Multimodal Document Retrieval) vor, ein Framework, das entwickelt wurde, um diese Lücke über Sprachen hinweg zu schließen und so die Anwendbarkeit in verschiedenen linguistischen und kulturellen Kontexten zu ermöglichen. M3DR nutzt synthetische multilinguale Dokumentendaten und verallgemeinert über verschiedene Vision-Language-Architekturen und Modellgrößen hinweg, was eine robuste cross-linguale und cross-modale Abgleichung ermöglicht. Mittels kontrastiven Trainings erlernen unsere Modelle vereinheitlichte Repräsentationen für Text und Dokumentenbilder, die effektiv über Sprachen hinweg übertragbar sind. Wir validieren diese Fähigkeit anhand von 22 typologisch diversen Sprachen und demonstrieren konsistente Leistung und Anpassungsfähigkeit über linguistische und schriftspezifische Variationen hinweg. Des Weiteren führen wir einen umfassenden Benchmark ein, der realweltliche multilinguale Szenarien abbildet und Modelle unter monolingualen, multilingualen und gemischtsprachigen Bedingungen evaluiert. M3DR verallgemeinert sowohl für Single-Dense-Vector- als auch für ColBERT-artige Token-Level-Multi-Vector-Retrieval-Paradigmen. Unsere Modelle NetraEmbed und ColNetraEmbed erzielen State-of-the-Art-Leistungen mit relativen Verbesserungen von ~150 % beim cross-lingualen Retrieval.
Das Verständnis langer Videos (LVU) ist eine Herausforderung, da die Beantwortung realer Anfragen oft von spärlichen, zeitlich verstreuten Hinweisen abhängt, die in stundenlangem größtenteils redundantem und irrelevantem Inhalt verborgen sind. Während agentenbasierte Pipelines die Video-Analysefähigkeiten verbessern, verlassen sich gängige Frameworks auf einen abfrage-agnostischen Captioner zur Wahrnehmung von Videoinformationen, was Rechenleistung für irrelevante Inhalte verschwendet und fein granulare zeitliche und räumliche Informationen verschwimmen lässt. Motiviert durch die Theorie der aktiven Wahrnehmung argumentieren wir, dass LVU-Agenten aktiv entscheiden sollten, was, wann und wo sie beobachten, und fortlaufend bewerten müssen, ob die aktuelle Beobachtung zur Beantwortung der Anfrage ausreicht. Wir präsentieren Active Video Perception (AVP), ein evidenzsuchendes Framework, das das Video als interaktive Umgebung behandelt und kompakte, abfragerelevante Evidenz direkt aus den Pixeln gewinnt. Konkret führt AVP einen iterativen Plan-Observe-Reflect-Prozess mit MLLM-Agenten durch. In jeder Runde schlägt ein Planner gezielte Videointeraktionen vor, ein Observer führt diese aus, um zeitgestempelte Evidenz zu extrahieren, und ein Reflector bewertet die Ausreichendheit der Evidenz für die Anfrage – entweder wird mit einer Antwort angehalten oder eine weitere Beobachtung ausgelöst. In fünf LVU-Benchmarks erzielt AVP die höchste Leistung mit signifikanten Verbesserungen. Bemerkenswerterweise übertrifft AVP die beste agentenbasierte Methode um 5,7 % in der durchschnittlichen Genauigkeit, benötigt dabei jedoch nur 18,4 % der Inferenzzeit und 12,4 % der Eingabe-Tokens.
Das zeitliche Verständnis im autonomen Fahren (AD) stellt nach wie vor eine große Herausforderung dar, selbst für moderne state-of-the-art (SoTA) Vision-Language-Modelle (VLMs). Bisherige Arbeiten haben Datensätze und Benchmarks eingeführt, die eine Verbesserung des temporalen Schlussfolgerns zum Ziel haben, konzentrierten sich dabei jedoch auf andere Videoinhalte wie Sport, Kochen und Filme. Es existiert kein Benchmark, der sich ausschließlich den einzigartigen Herausforderungen des temporalen Verständnisses in egozentrischem AD-Material widmet. Um diese Lücke zu schließen, wird der Benchmark für Temporales Verständnis im Autonomen Fahren (TAD) vorgestellt, der die Fähigkeit von VLMs bewertet, die dynamischen Beziehungen zwischen Aktionen im AD zu erfassen. TAD umfasst fast 6.000 Frage-Antwort-Paare, die sich über 7 von Menschen entworfenen Aufgaben erstrecken. Zusätzlich wird eine Evaluation durchgeführt, die 9 generische Modelle (sowohl Open-Source als auch proprietäre) sowie SoTA-spezialisierte AD-Modelle umfasst. Bei der Anwendung auf TAD zeigten aktuelle SoTA-Modelle unzureichende Genauigkeiten, was größtenteils auf ein unvollständiges feinkörniges Bewegungsverständnis zurückzuführen ist. Um das Bewegungsverständnis und die Gesamtgenauigkeit auf TAD zu verbessern, werden zwei neuartige trainingsfreie Lösungen vorgeschlagen: Scene-CoT, das Chain-of-Thought (CoT) nutzt, und TCogMap, das eine egozentrische temporale kognitive Karte integriert. Die vorgeschlagenen Ansätze werden in bestehende VLMs integriert und verbessern die durchschnittliche Genauigkeit auf TAD um bis zu 17,72 %. Durch die Einführung von TAD, das Benchmarking mehrerer SoTA-Modelle und das Vorschlagen effektiver Verbesserungen zielt diese Arbeit darauf ab, zukünftige Forschung zum temporalen Verständnis im AD zu beschleunigen. Der Benchmark und der Evaluierungscode sind verfügbar unter https://huggingface.co/datasets/vbdai/TAD bzw. https://github.com/vbdi/tad_bench.
In dieser Studie stellen wir Colon-X vor, eine offene Initiative zur Förderung multimodaler Intelligenz in der Koloskopie. Wir beginnen mit der Erstellung von ColonVQA, dem bisher umfassendsten multimodalen Datensatz für die Koloskopie, der über 1,1 Millionen Visual-Question-Answering-Einträge zu 76 klinischen Befunden und 18 multimodalen Aufgaben umfasst. Über die Funktion als datenbasierte Grundlage für die wissenschaftliche Gemeinschaft hinaus untersuchen wir einen kritischen, aber bisher wenig erforschten Übergang in der Koloskopie: die Entwicklung von multimodalem Verständnis hin zu klinischem Reasoning. (a) Um den aktuellen Stand des multimodalen Verstehens zu erfassen, bewerten wir systematisch die Generalisierbarkeit von 22 multimodalen Large Language Models und untersuchen ihre Zuverlässigkeit unter menschlich induzierten Störungen. Die Ergebnisse zeigen, dass die klinischen Ausgaben führender MLLMs noch weit davon entfernt sind, robust und vertrauenswürdig zu sein. (b) Um diese Lücke zu schließen, erforschen wir weiterhin reasoning-zentrierte Intelligenz, die speziell für die Koloskopie zugeschnitten ist. Konkret erstellen wir ColonReason, einen klinisch fundierten Reasoning-Datensatz, der durch einen Multi-Expert-Debatten-Prozess annotiert wurde, und entwickeln ColonR1, das erste R1-artige Modell, das aufgabenadaptive Belohnungs- und gradientenstabile Optimierungstechniken integriert. Unter datenarmen Bedingungen erzielt unser ColonR1 eine Gesamtgenauigkeit von 56,61 %, übertrifft damit supervised Fine-Tuning um 25,22 % und setzt einen neuen Reasoning-fähigen Maßstab für die multimodale Koloskopieanalyse. Alle Daten- und Modellressourcen sind öffentlich unter https://github.com/ai4colonoscopy/Colon-X verfügbar.
Jüngste Fortschritte in der Videogenerierung haben ein bemerkenswertes Potenzial für die Erstellung von Weltsimulatoren aufgezeigt. Allerdings haben aktuelle Modelle nach wie vor Schwierigkeiten, physikalisch konsistente Ergebnisse zu erzeugen, insbesondere bei der Verarbeitung großskaliger oder komplexer Dynamiken. Diese Einschränkung ergibt sich hauptsächlich daraus, dass bestehende Ansätze isotrop auf physikalische Eingabeaufforderungen reagieren und die fein abgestimmte Ausrichtung zwischen generierten Inhalten und lokalisierten physikalischen Hinweisen vernachlässigen. Um diese Herausforderungen zu bewältigen, schlagen wir ProPhy vor, ein Progressives Physikalisches Ausrichtungs-Framework, das explizite physikbewusste Konditionierung und anisotrope Generierung ermöglicht. ProPhy verwendet einen zweistufigen Mixture-of-Physics-Experts (MoPE)-Mechanismus zur diskriminativen Extraktion physikalischer Priors, bei dem Semantische Experten semantische physikalische Prinzipien aus Textbeschreibungen ableiten und Verfeinerungs-Experten token-level physikalische Dynamiken erfassen. Dieser Mechanismus ermöglicht es dem Modell, fein abgestufte, physikbewusste Videodarstellungen zu erlernen, die die zugrundeliegenden physikalischen Gesetze besser widerspiegeln. Darüber hinaus führen wir eine physikalische Ausrichtungsstrategie ein, die die physikalischen Reasoning-Fähigkeiten von Vision-Language-Modellen (VLMs) in die Verfeinerungs-Experten überträgt und so eine genauere Darstellung dynamischer physikalischer Phänomene ermöglicht. Umfangreiche Experimente mit Benchmarks für physikbewusste Videogenerierung zeigen, dass ProPhy realistischere, dynamischere und physikalisch kohärentere Ergebnisse liefert als bestehende state-of-the-art Methoden.
Die Nachträningsquantisierung (PTQ) spielt eine entscheidende Rolle bei der Demokratisierung großer Sprachmodelle (LLMs). Allerdings ist es schwierig, mit bestehenden Niedrigbit-Quantisierungs- und Sparsifizierungstechniken Genauigkeit und Effizienz auszugleichen, da die Hardwareunterstützung begrenzt ist. Beispielsweise kann W4A8 nur dieselbe Spitzen-TOPS wie W8A8 erreichen, während das GPU-unterstützte sparse Datenformat (2:4 halbstrukturiert spärlich) aufgrund von Genauigkeitsverlusten selten eingesetzt wird. Um diese Lücke zu schließen, schlagen wir in diesem Artikel das Sparse-Quantized Format (SQ-Format) vor – ein vereinheitlichtes Datenformat für Quantisierung und Sparsifizierung, das potenziell einfach von neuer Hardware und bestehenden GPUs unterstützt werden kann. Das SQ-Format macht sich zunutze, dass sparse Matrizen in hoher Präzision beschleunigt werden können und niedrigpräzise Matrixmultiplikationen entsprechend ebenfalls beschleunigt werden können. Somit wird das SQ-Format vorgeschlagen, um eine Pareto-Verbesserung zwischen Leistung und Durchsatz zu erreichen. Dieses Format eignet sich besonders für Aktivierungen mit Ausreißer-Ungleichheitsstatus und ermöglicht deren statische Kompression. Wir zeigen die state-of-the-art PTQ-Leistung mit dem SQ-Format, schlagen die erforderliche Hardware zu dessen Unterstützung vor und bieten zudem Design-Exploration und Einblicke für die nächste Generation von KI-Beschleunigern.
Eine effektive Verringerung des Erdbebenrisikos basiert auf genauen standortspezifischen Bewertungen. Dies erfordert Modelle, die den Einfluss lokaler Standortbedingungen auf die Charakteristiken der Bodenbewegung abbilden können. In diesem Zusammenhang bieten datengesteuerte Ansätze, die standortkontrollierte Signaturen aus aufgezeichneten Bodenbewegungen lernen, eine vielversprechende Richtung. Wir befassen uns mit der Generierung starker Bodenbewegungen aus Zeitbereichsaufzeichnungen von Beschleunigungsmessern und stellen den TimesNet-Gen vor, einen konditionalen Generator im Zeitbereich. Der Ansatz nutzt einen stationsspezifischen latenten Engpass. Wir bewerten die Generierung durch den Vergleich von HVSR-Kurven und Verteilungen der grundlegenden Standortfrequenz f₀ zwischen realen und generierten Aufzeichnungen pro Station und fassen die Stationsspezifität mit einem auf den f₀-Verteilungs-Konfusionsmatrizen basierenden Score zusammen. TimesNet-Gen erreicht eine starke Übereinstimmung auf Stationsebene und schneidet im Vergleich zu einem spektrogrammbasierten konditionalen VAE-Basismodell für die standortspezifische Synthese starker Bodenbewegungen günstig ab. Unsere Codes sind verfügbar unter https://github.com/brsylmz23/TimesNet-Gen.
Mit steigenden Rechenanforderungen erfordert die Bewertung des ökologischen Fußabdrucks von KI eine Erweiterung über Energie- und Wasserverbrauch hinaus, um auch den Materialbedarf spezialisierter Hardware einzubeziehen. Diese Studie quantifiziert den Materialfußabdruck des KI-Trainings, indem sie Rechenlasten mit physischen Hardwareanforderungen verknüpft. Die elementare Zusammensetzung der Nvidia A100 SXM 40 GB Graphics Processing Unit (GPU) wurde mittels optischer Emissionsspektrometrie mit induktiv gekoppeltem Plasma analysiert, wobei 32 Elemente identifiziert wurden. Die Ergebnisse zeigen, dass KI-Hardware zu etwa 90 % aus Schwermetallen und nur in Spuren aus Edelmetallen besteht. Die Elemente Kupfer, Eisen, Zinn, Silizium und Nickel dominieren die GPU-Zusammensetzung massebezogen. In einer mehrstufigen Methodik integrieren wir diese Messungen mit dem Rechendurchsatz pro GPU über verschiedene Lebensdauern hinweg und berücksichtigen die Rechenanforderungen für das Training spezifischer KI-Modelle bei unterschiedlichen Trainingseffizienzregimen. Szenariobasierte Analysen zeigen, dass das Training von GPT-4 – abhängig von der Model FLOPs Utilization (MFU) und der Hardware-Lebensdauer – zwischen 1.174 und 8.800 A100-GPUs erfordert, was der Extraktion und letztendlichen Entsorgung von bis zu 7 Tonnen toxischer Elemente entspricht. Kombinierte Software- und Hardware-Optimierungsstrategien können den Materialbedarf reduzieren: Eine Erhöhung der MFU von 20 % auf 60 % senkt den GPU-Bedarf um 67 %, während eine Verlängerung der Lebensdauer von 1 auf 3 Jahre vergleichbare Einsparungen bringt; die Umsetzung beider Maßnahmen zusammen reduziert den GPU-Bedarf um bis zu 93 %. Unsere Ergebnisse unterstreichen, dass inkrementelle Leistungssteigerungen, wie sie zwischen GPT-3.5 und GPT-4 beobachtet wurden, mit unverhältnismäßig hohen Materialkosten einhergehen. Die Studie betont die Notwendigkeit, Materialressourcen in die Diskussionen zur KI-Skalierbarkeit einzubeziehen, und hebt hervor, dass zukünftige Fortschritte in der KI mit den Prinzipien der Ressourceneffizienz und Umweltverantwortung in Einklang stehen müssen.
Große Sprachmodelle (LLMs) werden typischerweise in der Post-Training-Phase auf Sicherheit ausgerichtet; dennoch können sie weiterhin unangemessene Ausgaben generieren, die potenzielle Risiken für Nutzer darstellen könnten. Diese Herausforderung unterstreicht die Notwendigkeit robuster Sicherheitsvorkehrungen, die sowohl auf Modell-Eingaben als auch -Ausgaben angewandt werden. In dieser Arbeit stellen wir Roblox Guard 1.0 vor, ein modernes, instruktionsfeinabgestimmtes LLM, das entwickelt wurde, um die Sicherheit von LLM-Systemen durch umfassende Input-Output-Moderation zu verbessern, wobei eine Pipeline von LLMs zur Steigerung der Moderationsfähigkeit genutzt wird. Aufbauend auf dem Llama-3.1-8B-Instruct-Grundgerüst ist unser Modell instruktionsfeinabgestimmt, um sich über bisher unbekannte Sicherheitstaxonomien zu verallgemeinern, und zeigt eine starke Leistung in out-of-domain Sicherheitsbenchmarks. Der Feinabstimmungsprozess nutzt eine Mischung aus synthetischen und Open-Source-Sicherheitsdatensätzen, angereichert mit Chain-of-Thought (CoT)-Begründungen und Input-Inversion, um das kontextuelle Verständnis und die Entscheidungsfindung zu verbessern. Um eine systematische Evaluation zu unterstützen, veröffentlichen wir zudem RobloxGuard-Eval, einen neuen Benchmark mit einer erweiterbaren Sicherheitstaxonomie zur Bewertung der Wirksamkeit von LLM-Sicherheitsbarrieren und Moderationsframeworks.