Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen ComfyUI-Copilot vor, ein Plugin, das durch ein großes Sprachmodell angetrieben wird und darauf abzielt, die Benutzerfreundlichkeit und Effizienz von ComfyUI zu verbessern, einer Open-Source-Plattform für KI-gestützte Kunstkreation. Trotz seiner Flexibilität und benutzerfreundlichen Oberfläche kann ComfyUI für Neulinge Herausforderungen darstellen, darunter begrenzte Dokumentation, Fehlkonfigurationen von Modellen und die Komplexität der Workflow-Gestaltung. ComfyUI-Copilot adressiert diese Herausforderungen durch intelligente Empfehlungen von Knoten und Modellen sowie durch die automatisierte Erstellung von Workflows per Mausklick. Im Kern des Systems wird ein hierarchisches Multi-Agenten-Framework eingesetzt, das aus einem zentralen Assistenten-Agenten zur Aufgabenverteilung und spezialisierten Worker-Agenten für verschiedene Anwendungsfälle besteht. Dies wird durch unsere kuratierten ComfyUI-Wissensdatenbanken unterstützt, um das Debugging und die Bereitstellung zu optimieren. Wir validieren die Wirksamkeit von ComfyUI-Copilot sowohl durch offline quantitative Bewertungen als auch durch Online-Nutzerfeedback, das zeigt, dass es Knoten präzise empfiehlt und die Workflow-Entwicklung beschleunigt. Darüber hinaus verdeutlichen Anwendungsfälle, dass ComfyUI-Copilot die Einstiegshürden für Anfänger senkt und die Workflow-Effizienz für erfahrene Nutzer steigert. Das Installationspaket von ComfyUI-Copilot und ein Demo-Video sind unter https://github.com/AIDC-AI/ComfyUI-Copilot verfügbar.
Jüngste Fortschritte in der diffusionsbasierten Videorestaurierung (VR) zeigen eine deutliche Verbesserung der visuellen Qualität, führen jedoch zu einem prohibitiv hohen Rechenaufwand während der Inferenz. Während mehrere Distillationsansätze das Potenzial der Ein-Schritt-Bildrestaurierung aufgezeigt haben, bleibt die Erweiterung bestehender Ansätze auf VR herausfordernd und untererforscht, insbesondere bei der Verarbeitung von hochauflösenden Videos in realen Umgebungen. In dieser Arbeit schlagen wir ein Ein-Schritt-diffusionsbasiertes VR-Modell vor, das als SeedVR2 bezeichnet wird und ein adversarisches VR-Training gegen reale Daten durchführt. Um die anspruchsvolle hochauflösende VR in einem einzigen Schritt zu bewältigen, führen wir mehrere Verbesserungen sowohl in der Modellarchitektur als auch in den Trainingsverfahren ein. Insbesondere wird ein adaptiver Fenster-Attentionsmechanismus vorgeschlagen, bei dem die Fenstergröße dynamisch an die Ausgabeauflösungen angepasst wird, um Fensterinkonsistenzen zu vermeiden, die bei der hochauflösenden VR mit einer vordefinierten Fenstergröße beobachtet werden. Um das adversarische Nach-Training für VR zu stabilisieren und zu verbessern, überprüfen wir weiterhin die Wirksamkeit einer Reihe von Verlustfunktionen, einschließlich eines vorgeschlagenen Feature-Matching-Verlusts, ohne die Trainingseffizienz signifikant zu beeinträchtigen. Umfangreiche Experimente zeigen, dass SeedVR2 in einem einzigen Schritt eine vergleichbare oder sogar bessere Leistung im Vergleich zu bestehenden VR-Ansätzen erzielen kann.
In dieser Arbeit stellen wir die Qwen3 Embedding-Serie vor, eine bedeutende Weiterentwicklung gegenüber ihrem Vorgänger, der GTE-Qwen-Serie, in den Bereichen Text-Embedding und Reranking, basierend auf den Qwen3-Foundation-Modellen. Durch die Nutzung der robusten Fähigkeiten der Qwen3-LLMs im Verständnis und der Generierung mehrsprachiger Texte kombiniert unsere innovative mehrstufige Trainingspipeline groß angelegtes unüberwachtes Vor-Training mit überwachtem Fein-Tuning auf hochwertigen Datensätzen. Effektive Modellzusammenführungsstrategien gewährleisten weiterhin die Robustheit und Anpassungsfähigkeit der Qwen3 Embedding-Serie. Während des Trainingsprozesses dienen die Qwen3-LLMs nicht nur als Rückgratmodelle, sondern spielen auch eine entscheidende Rolle bei der Synthese von hochwertigen, reichhaltigen und vielfältigen Trainingsdaten über mehrere Domänen und Sprachen hinweg, wodurch die Trainingspipeline verbessert wird. Die Qwen3 Embedding-Serie bietet eine Reihe von Modellgrößen (0,6B, 4B, 8B) für sowohl Embedding- als auch Reranking-Aufgaben, um verschiedene Einsatzszenarien abzudecken, in denen Benutzer entweder Effizienz oder Effektivität optimieren können. Empirische Auswertungen zeigen, dass die Qwen3 Embedding-Serie state-of-the-art Ergebnisse in diversen Benchmarks erzielt. Besonders hervorzuheben ist ihre Leistung auf dem mehrsprachigen Evaluierungsbenchmark MTEB für Text-Embedding sowie in verschiedenen Retrieval-Aufgaben, einschließlich Code-Retrieval, Cross-Lingual-Retrieval und mehrsprachigem Retrieval. Um die Reproduzierbarkeit zu erleichtern und die gemeinschaftsgetriebene Forschung und Entwicklung zu fördern, sind die Qwen3 Embedding-Modelle unter der Apache 2.0-Lizenz öffentlich verfügbar.
Aufkommende Weltmodelle generieren autoregressiv Videobilder als Reaktion auf Aktionen wie Kamerabewegungen und Textanweisungen sowie andere Steuersignale. Aufgrund begrenzter zeitlicher Kontextfenstergrößen haben diese Modelle oft Schwierigkeiten, die Szenenkonsistenz bei erneuten Besuchen aufrechtzuerhalten, was zu einem starken Vergessen zuvor generierter Umgebungen führt. Inspiriert von den Mechanismen des menschlichen Gedächtnisses führen wir ein neuartiges Framework ein, das die langfristige Konsistenz von Video-Weltmodellen durch einen geometriebasierten langfristigen räumlichen Speicher verbessert. Unser Framework umfasst Mechanismen zur Speicherung und Abfrage von Informationen aus dem langfristigen räumlichen Speicher, und wir erstellen spezielle Datensätze, um Weltmodelle mit explizit gespeicherten 3D-Speichermechanismen zu trainieren und zu bewerten. Unsere Auswertungen zeigen eine verbesserte Qualität, Konsistenz und Kontextlänge im Vergleich zu relevanten Baselines und ebnen den Weg für eine langfristig konsistente Welterzeugung.
Räumliches Referenzieren ist eine grundlegende Fähigkeit von verkörperten Robotern, um mit der dreidimensionalen physischen Welt zu interagieren. Allerdings sind aktuelle Ansätze selbst mit leistungsstarken vortrainierten Vision-Language-Modellen (VLMs) noch nicht in der Lage, komplexe 3D-Szenen präzise zu verstehen und dynamisch über die durch Anweisungen angegebenen Interaktionsorte zu schlussfolgern. Zu diesem Zweck schlagen wir RoboRefer vor, ein 3D-bewusstes VLM, das zunächst ein präzises räumliches Verständnis durch die Integration eines entkoppelten, aber spezialisierten Tiefenencoders mittels überwachtem Feinabgleich (Supervised Fine-Tuning, SFT) erreichen kann. Darüber hinaus erweitert RoboRefer das generalisierte mehrstufige räumliche Schlussfolgern durch verstärkendes Feinabgleich (Reinforcement Fine-Tuning, RFT) mit metrik-sensitiven Prozess-Belohnungsfunktionen, die speziell für räumliche Referenzierungsaufgaben entwickelt wurden. Um das SFT- und RFT-Training zu unterstützen, führen wir RefSpatial ein, einen groß angelegten Datensatz mit 20 Millionen Frage-Antwort-Paaren (2x mehr als bisher), der 31 räumliche Beziehungen abdeckt (im Vergleich zu 15 bisher) und komplexe Schlussfolgerungsprozesse (bis zu 5 Schritte) unterstützt. Zusätzlich stellen wir RefSpatial-Bench vor, einen anspruchsvollen Benchmark, der die Lücke bei der Bewertung von räumlichem Referenzieren mit mehrstufigem Schlussfolgern schließt. Experimente zeigen, dass der SFT-trainierte RoboRefer ein state-of-the-art räumliches Verständnis erreicht, mit einer durchschnittlichen Erfolgsrate von 89,6%. Der RFT-trainierte RoboRefer übertrifft alle anderen Baselines deutlich und überholt sogar Gemini-2.5-Pro um 17,4% in der durchschnittlichen Genauigkeit auf RefSpatial-Bench. Bemerkenswert ist, dass RoboRefer mit verschiedenen Steuerungsrichtlinien integriert werden kann, um langfristige, dynamische Aufgaben über diverse Roboter (z.B. UR5, G1-Humanoid) in unübersichtlichen realen Szenarien auszuführen.
Transformer-Modelle haben Schwierigkeiten mit Langzeitkontext-Inferenz aufgrund ihrer quadratischen Zeit- und linearen Speicherkomplexität. Recurrent Memory Transformers (RMTs) bieten eine Lösung, indem sie den asymptotischen Aufwand auf lineare Zeit und konstanten Speicherverbrauch reduzieren. Allerdings führt ihr Speicher-Aktualisierungsmechanismus zu einer sequenziellen Ausführung, was einen Leistungsengpass verursacht. Wir stellen Diagonal Batching vor, ein Scheduling-Schema, das Parallelität über Segmente in RMTs ermöglicht, während die exakte Rekurrenz erhalten bleibt. Dieser Ansatz beseitigt die sequenzielle Einschränkung und ermöglicht eine effiziente GPU-Inferenz selbst für einzelne Langzeitkontext-Eingaben ohne komplexe Batching- und Pipelining-Techniken. Da die Technik lediglich eine Neuordnung der Laufzeitberechnung ist, können bestehende RMT-Modelle sie ohne erneutes Training übernehmen. Angewendet auf ein LLaMA-1B ARMT-Modell, erzielt Diagonal Batching eine 3,3-fache Beschleunigung gegenüber dem standardmäßigen Full-Attention LLaMA-1B und eine 1,8-fache Beschleunigung gegenüber der sequenziellen RMT-Implementierung bei Sequenzen mit 131.072 Tokens. Durch die Beseitigung des sequenziellen Engpasses reduziert Diagonal Batching die Inferenzkosten und -latenz und stärkt damit RMTs als praktische Lösung für reale Anwendungen mit Langzeitkontext.
Große Sprachmodelle (LLMs) werden typischerweise auf enormen Mengen von nicht lizenziertem Text trainiert, eine Praxis, die aufgrund möglicher Verstöße gegen geistiges Eigentum und ethischer Bedenken unter Beobachtung steht. Das Training von LLMs auf offen lizenzierten Texten stellt einen ersten Schritt zur Bewältigung dieser Probleme dar, aber bisherige Datensammlungsbemühungen haben Datensätze hervorgebracht, die zu klein oder von zu geringer Qualität waren, um leistungsstarke LLMs zu erzeugen. Um diese Lücke zu schließen, sammeln, kuratieren und veröffentlichen wir den Common Pile v0.1, eine acht Terabyte umfassende Sammlung von offen lizenziertem Text, die für das Vortraining von LLMs konzipiert ist. Der Common Pile umfasst Inhalte aus 30 Quellen, die verschiedene Domänen abdecken, darunter Forschungsarbeiten, Code, Bücher, Enzyklopädien, Bildungsmaterialien, Audiotranskripte und mehr. Entscheidend ist, dass wir unsere Bemühungen validieren, indem wir zwei LLMs mit 7 Milliarden Parametern auf Text aus dem Common Pile trainieren: Comma v0.1-1T und Comma v0.1-2T, die auf 1 bzw. 2 Billionen Tokens trainiert wurden. Beide Modelle erreichen eine wettbewerbsfähige Leistung im Vergleich zu LLMs, die mit ähnlichen Rechenbudgets auf nicht lizenziertem Text trainiert wurden, wie z.B. Llama 1 und 2 7B. Neben der Veröffentlichung des Common Pile v0.1 selbst stellen wir auch den bei seiner Erstellung verwendeten Code sowie die Trainingsmischung und Checkpoints für die Comma v0.1-Modelle zur Verfügung.
Wir präsentieren Surfer-H, einen kosteneffizienten Web-Agenten, der Vision-Language-Modelle (VLM) integriert, um benutzerdefinierte Aufgaben im Web auszuführen. Wir kombinieren ihn mit Holo1, einer neuen Sammlung von Open-Weight-VLMs, die speziell für die Webnavigation und Informationsextraktion entwickelt wurden. Holo1 wurde mit sorgfältig kuratierten Datenquellen trainiert, darunter frei zugängliche Webinhalte, synthetische Beispiele und selbst erzeugte agentische Daten. Holo1 führt sowohl in allgemeinen User-Interface-(UI)-Benchmarks als auch in unserem neuen Web-UI-Lokalisierungsbenchmark, WebClick, die Bestenlisten an. Mit Holo1 als Antrieb erreicht Surfer-H eine state-of-the-art Leistung von 92,2 % auf WebVoyager und schafft dabei ein Pareto-optimales Gleichgewicht zwischen Genauigkeit und Kosteneffizienz. Um den Forschungsfortschritt in agentischen Systemen zu beschleunigen, stellen wir sowohl unser WebClick-Evaluationsdatensatz als auch die Modellgewichte von Holo1 als Open Source zur Verfügung.
Inference-Time-Scaling tauscht Effizienz gegen eine erhöhte Genauigkeit der Schlussfolgerungen ein, indem längere oder stärker parallele Sequenzen erzeugt werden. Bei Transformer-LLMs wird die Generierungskosten jedoch durch die Größe des Key-Value (KV)-Caches begrenzt und nicht durch die Anzahl der erzeugten Tokens. Daher untersuchen wir Inference-Time-Hyper-Scaling: Durch die Komprimierung des KV-Caches können wir innerhalb desselben Rechenbudgets mehr Tokens erzeugen und die Genauigkeit des skalierten Inferenzprozesses weiter verbessern. Der Erfolg dieses Ansatzes hängt jedoch von der Fähigkeit der Kompressionsmethoden ab, die Genauigkeit auch bei hohen Kompressionsraten zu bewahren. Um Hyper-Scaling praktikabel zu machen, führen wir Dynamic Memory Sparsification (DMS) ein, eine neuartige Methode zur Sparsifizierung von KV-Caches, die nur 1.000 Trainingsschritte benötigt, um eine 8-fache Kompression zu erreichen, während sie eine bessere Genauigkeit als trainingsfreie Sparse-Attention beibehält. Anstatt zwischengespeicherte Tokens vorzeitig zu verwerfen, verzögert DMS die Token-Entfernung, indem es Repräsentationen implizit zusammenführt und kritische Informationen bewahrt. Wir demonstrieren die Wirksamkeit von Inference-Time-Hyper-Scaling mit DMS anhand mehrerer LLM-Familien und zeigen, dass es die Genauigkeit bei vergleichbarer Inferenzlaufzeit und Speicherlast steigert. Beispielsweise verbessern wir Qwen-R1 32B im Durchschnitt um 9,1 Punkte auf AIME 24, 7,6 auf GPQA und 9,6 auf LiveCodeBench über verschiedene Rechenbudgets hinweg.
Dieses Papier stellt ein neuartiges Framework zur Ausrichtung lernbarer latenter Räume auf beliebige Zielverteilungen vor, indem flow-basierte generative Modelle als Prioritäten genutzt werden. Unsere Methode trainiert zunächst ein Flow-Modell auf den Zielmerkmalen vor, um die zugrunde liegende Verteilung zu erfassen. Dieses feste Flow-Modell regularisiert anschließend den latenten Raum über einen Ausrichtungsverlust, der das Flow-Matching-Ziel so umformuliert, dass die latenten Variablen als Optimierungsziele behandelt werden. Wir beweisen formal, dass die Minimierung dieses Ausrichtungsverlusts ein recheneffizientes Ersatzziel für die Maximierung einer unteren Schranke der Log-Likelihood der latenten Variablen unter der Zielverteilung darstellt. Bemerkenswerterweise eliminiert die vorgeschlagene Methode rechenintensive Likelihood-Bewertungen und vermeidet das Lösen von gewöhnlichen Differentialgleichungen während der Optimierung. Als Proof of Concept zeigen wir in einer kontrollierten Umgebung, dass die Landschaft des Ausrichtungsverlusts die negative Log-Likelihood der Zielverteilung eng approximiert. Wir validieren die Wirksamkeit unseres Ansatzes weiterhin durch groß angelegte Bildgenerierungsexperimente auf ImageNet mit diversen Zielverteilungen, begleitet von detaillierten Diskussionen und Ablationsstudien. Mit sowohl theoretischer als auch empirischer Validierung ebnet unser Framework einen neuen Weg für die Ausrichtung latenter Räume.
Mathematisches Denken in realen Video-Szenarien stellt eine grundlegend andere Herausforderung dar als in statischen Bildern oder Texten. Es erfordert die Interpretation feingranularer visueller Informationen, das präzise Lesen von handgeschriebenem oder digitalem Text sowie die Integration von gesprochenen Hinweisen, die oft nicht-linear über die Zeit verteilt sind. In solchen multimodalen Kontexten hängt der Erfolg nicht nur von der Wahrnehmung ab, sondern auch von der selektiven Identifizierung und Integration der richtigen kontextuellen Details aus einem reichhaltigen und verrauschten Datenstrom. Zu diesem Zweck stellen wir VideoMathQA vor, einen Benchmark, der evaluiert, ob Modelle eine solche zeitlich erweiterte, cross-modale Argumentation in Videos durchführen können. Der Benchmark umfasst 10 verschiedene mathematische Domänen und deckt Videos von 10 Sekunden bis über eine Stunde ab. Er erfordert, dass Modelle strukturierte visuelle Inhalte interpretieren, instruktionale Erzählungen verstehen und Konzepte über visuelle, auditive und textuelle Modalitäten hinweg gemeinsam verankern. Wir setzen Experten auf Graduiertenebene ein, um eine hohe Qualität sicherzustellen, was insgesamt über 920 Arbeitsstunden an Annotationen umfasst. Um reale Szenarien widerzuspiegeln, sind die Fragen um drei zentrale Argumentationsherausforderungen herum gestaltet: direktes Problemlösen, bei dem die Antworten in der gestellten Frage verankert sind; konzeptioneller Transfer, der die Anwendung erlernter Methoden auf neue Probleme erfordert; und tiefes instruktionales Verständnis, das mehrstufiges Denken über längere Erklärungen und teilweise ausgearbeitete Lösungen beinhaltet. Jede Frage enthält mehrstufige Argumentationsannotationen, die eine feingranulare Diagnose der Modellfähigkeiten ermöglichen. Durch diesen Benchmark heben wir die Grenzen bestehender Ansätze hervor und etablieren ein systematisches Evaluationsframework für Modelle, die über zeitlich erweiterte und modalitätsreiche mathematische Problemszenarien hinweg argumentieren müssen, anstatt sie lediglich wahrzunehmen. Unser Benchmark und der Evaluationscode sind verfügbar unter: https://mbzuai-oryx.github.io/VideoMathQA
Jüngste Fortschritte in Text-zu-Video (T2V) Diffusionsmodellen haben die Synthese von hochwertigen und realistischen Videos ermöglicht. Allerdings haben aktuelle T2V-Modelle oft Schwierigkeiten, physikalisch plausible Inhalte zu erzeugen, da ihre inhärente Fähigkeit, Physik genau zu verstehen, begrenzt ist. Wir haben festgestellt, dass die Repräsentationen innerhalb von T2V-Modellen zwar ein gewisses Verständnis für Physik besitzen, jedoch deutlich hinter denen aktueller selbstüberwachter Lernmethoden für Videos zurückbleiben. Aus diesem Grund schlagen wir ein neuartiges Framework namens VideoREPA vor, das das physikalische Verständnis aus Video-Verständnis-Foundation-Modellen in T2V-Modelle überträgt, indem es Token-Level-Beziehungen ausrichtet. Dies schließt die Lücke im physikalischen Verständnis und ermöglicht eine physikalisch plausiblere Generierung. Konkret führen wir den Token Relation Distillation (TRD) Verlust ein, der räumlich-zeitliche Ausrichtung nutzt, um eine sanfte Führung für das Feinabstimmen leistungsstarker, vortrainierter T2V-Modelle zu bieten – ein entscheidender Unterschied zu früheren Repräsentationsausrichtungsmethoden (REPA). Unseres Wissens ist VideoREPA die erste REPA-Methode, die für das Feinabstimmen von T2V-Modellen und speziell für die Einbringung physikalischen Wissens entwickelt wurde. Empirische Auswertungen zeigen, dass VideoREPA das physikalische Allgemeinwissen der Basismethode CogVideoX erheblich verbessert, signifikante Fortschritte bei relevanten Benchmarks erzielt und eine starke Fähigkeit zur Erzeugung von Videos demonstriert, die mit intuitiver Physik übereinstimmen. Weitere Videoergebnisse sind unter https://videorepa.github.io/ verfügbar.
Trotz Fortschritten im Bereich der Videoanalyse haben aktuelle Multimodale Large Language Models (MLLMs) Schwierigkeiten mit Zählaufgaben. Bestehende Benchmarks sind durch kurze Videos, geschlossene Fragestellungen, fehlende Hinweisannotationen und eine schwache multimodale Abdeckung eingeschränkt. In diesem Artikel stellen wir CG-AV-Counting vor, einen manuell annotierten, hinweisbasierten Zähl-Benchmark mit 1.027 multimodalen Fragen und 5.845 annotierten Hinweisen über 497 lange Videos. Er unterstützt sowohl Black-Box- als auch White-Box-Evaluierungen und dient als umfassende Testumgebung für sowohl end-to-end als auch auf Logik basierende Zählverfahren. Um Möglichkeiten zur Verbesserung der Zählfähigkeit von Modellen zu erforschen, schlagen wir AV-Reasoner vor, ein Modell, das mit GRPO und Curriculum Learning trainiert wurde, um die Zählfähigkeit von verwandten Aufgaben zu verallgemeinern. AV-Reasoner erzielt state-of-the-art Ergebnisse über mehrere Benchmarks hinweg und demonstriert die Wirksamkeit von Reinforcement Learning. Experimente zeigen jedoch, dass bei Benchmarks außerhalb des Trainingsbereichs das Schließen im Sprachraum keine Leistungssteigerungen bringt. Der Code und der Benchmark wurden unter https://av-reasoner.github.io veröffentlicht.
Vernunftmodelle, die durch die Deepseek-R1-Distill-Serie repräsentiert werden, wurden aufgrund ihrer starken Leistung in den Bereichen Mathematik, Naturwissenschaften, Programmierung und anderen Domänen weitgehend von der Open-Source-Community übernommen. Unsere Studie zeigt jedoch, dass ihre Benchmark-Evaluierungsergebnisse erheblichen Schwankungen unterliegen, die durch verschiedene Faktoren verursacht werden. Subtile Unterschiede in den Evaluierungsbedingungen können zu erheblichen Ergebnisvariationen führen. Ähnliche Phänomene werden bei anderen Open-Source-Inferenzmodellen beobachtet, die auf der Deepseek-R1-Distill-Serie feinabgestimmt wurden, sowie beim QwQ-32B-Modell, was die behaupteten Leistungsverbesserungen schwer zuverlässig reproduzierbar macht. Daher plädieren wir für die Etablierung eines strengeren Paradigmas zur Bewertung der Modellleistung und präsentieren unsere empirischen Bewertungen der Deepseek-R1-Distill-Serie-Modelle.
Räumliche Kognition ist ein wesentlicher Bestandteil der menschlichen Intelligenz, der es ermöglicht, Probleme durch visuelle Simulationen zu lösen, anstatt sich ausschließlich auf verbales Denken zu verlassen. Bisherige KI-Benchmarks konzentrieren sich jedoch hauptsächlich auf verbales Denken und vernachlässigen die Komplexität nicht-verbaler, mehrstufiger visueller Simulationen. Wir stellen STARE (Spatial Transformations and Reasoning Evaluation) vor, einen Benchmark, der entwickelt wurde, um multimodale große Sprachmodelle anhand von Aufgaben rigoros zu bewerten, die besser durch mehrstufige visuelle Simulationen gelöst werden. STARE umfasst 4.000 Aufgaben, die grundlegende geometrische Transformationen (2D und 3D), integriertes räumliches Denken (Falten von Würfelnetzen und Tangram-Puzzles) sowie realitätsnahes räumliches Denken (Perspektiven- und zeitliches Denken) abdecken und praktische kognitive Herausforderungen wie das Zusammenbauen von Objekten, die Interpretation mechanischer Diagramme und die alltägliche räumliche Navigation widerspiegeln. Unsere Auswertungen zeigen, dass Modelle bei der Bewältigung einfacherer 2D-Transformationen gut abschneiden, aber bei komplexeren Aufgaben wie dem Falten von 3D-Würfelnetzen und Tangram-Puzzles, die mehrstufige visuelle Simulationen erfordern, nahezu zufällige Ergebnisse liefern. Menschen erreichen nahezu perfekte Genauigkeit, benötigen jedoch erhebliche Zeit (bis zu 28,9 Sekunden) für komplexe Aufgaben, die sich durch Zwischenvisualisierungen deutlich verkürzt (im Durchschnitt um 7,5 Sekunden). Im Gegensatz dazu zeigen Modelle inkonsistente Leistungssteigerungen durch visuelle Simulationen, verbessern sich bei den meisten Aufgaben, verschlechtern sich jedoch in bestimmten Fällen wie Tangram-Puzzles (GPT-4o, o1) und dem Falten von Würfelnetzen (Claude-3.5, Gemini-2.0 Flash), was darauf hindeutet, dass Modelle möglicherweise nicht wissen, wie sie Zwischenvisualisierungen effektiv nutzen können.
Suchverstärkte Sprachmodelle kombinieren Websuche mit großen Sprachmodellen (LLMs), um die Fundiertheit und Aktualität von Antworten zu verbessern. Die Analyse dieser Systeme bleibt jedoch herausfordernd: bestehende Datensätze sind in ihrem Umfang begrenzt und in ihrer Reichweite eng gefasst, oft beschränkt auf statische, einstufige Faktenprüfungsfragen. In dieser Arbeit stellen wir Search Arena vor, einen crowdsourcierten, groß angelegten Datensatz mit über 24.000 gepaarten mehrstufigen Benutzerinteraktionen mit suchverstärkten LLMs, der menschliche Präferenzen abbildet. Der Datensatz umfasst diverse Intentionen und Sprachen und enthält vollständige Systemabläufe mit etwa 12.000 menschlichen Präferenzabstimmungen. Unsere Analyse zeigt, dass Benutzerpräferenzen durch die Anzahl der Zitate beeinflusst werden, selbst wenn die zitierten Inhalte die zugeschriebenen Behauptungen nicht direkt unterstützen, was eine Lücke zwischen wahrgenommener und tatsächlicher Glaubwürdigkeit aufdeckt. Darüber hinaus variieren Benutzerpräferenzen je nach zitierten Quellen, wobei sich zeigt, dass community-gesteuerte Plattformen generell bevorzugt werden und statische enzyklopädische Quellen nicht immer angemessen und zuverlässig sind. Um die Leistung in verschiedenen Kontexten zu bewerten, führen wir Cross-Arena-Analysen durch, indem wir suchverstärkte LLMs in einer allgemeinen Chat-Umgebung und konventionelle LLMs in suchintensiven Settings testen. Wir stellen fest, dass Websuche die Leistung in nicht-suchbezogenen Kontexten nicht beeinträchtigt und sie sogar verbessern kann; jedoch wird die Qualität in suchbezogenen Kontexten erheblich beeinflusst, wenn ausschließlich auf das parametrische Wissen des Modells vertraut wird. Wir haben den Datensatz open-source bereitgestellt, um zukünftige Forschung in dieser Richtung zu unterstützen. Unser Datensatz und Code sind verfügbar unter: https://github.com/lmarena/search-arena.
Multimodale Large Language Models (MLLMs) werden üblicherweise durch die Erweiterung vortrainierter Large Language Models (LLMs) um visuelle Fähigkeiten abgeleitet. In dieser Arbeit untersuchen wir, wie MLLMs visuelle Eingaben verarbeiten, indem wir ihre Aufmerksamkeitsmechanismen analysieren. Wir enthüllen ein überraschendes Sparsamkeitsphänomen: Nur eine kleine Teilmenge (etwa weniger als 5%) der Aufmerksamkeitsköpfe in LLMs trägt aktiv zum visuellen Verständnis bei, die als visuelle Köpfe bezeichnet werden. Um diese Köpfe effizient zu identifizieren, entwickeln wir ein trainingsfreies Framework, das die visuelle Relevanz auf Kopfebene durch gezielte Antwortanalysen quantifiziert. Aufbauend auf dieser Entdeckung führen wir SparseMM ein, eine KV-Cache-Optimierungsstrategie, die asymmetrische Rechenbudgets basierend auf den visuellen Scores an die Köpfe in LLMs zuweist und die Sparsamkeit der visuellen Köpfe nutzt, um die Inferenz von MLLMs zu beschleunigen. Im Vergleich zu früheren KV-Cache-Beschleunigungsmethoden, die die Besonderheiten des Visuellen ignorieren, priorisiert SparseMM die Betonung und Beibehaltung visueller Semantik während der Dekodierung. Umfangreiche Bewertungen über gängige multimodale Benchmarks zeigen, dass SparseMM überlegene Kompromisse zwischen Genauigkeit und Effizienz erreicht. Insbesondere bietet SparseMM eine 1,38-fache Echtzeitbeschleunigung und eine 52%ige Speicherreduzierung während der Generierung bei gleichbleibender Leistung in Effizienztests. Unser Projekt ist unter https://github.com/CR400AF-A/SparseMM quelloffen verfügbar.
Das Training von Sprachmodellen auf langen Sequenzdaten ist eine anspruchsvolle Anforderung, um die Fähigkeiten des Modells bei komplexen Aufgaben, wie z.B. langkettigem Schlussfolgern, zu verbessern. Allerdings steigen mit zunehmender Sequenzlänge die Speicherkosten für die Speicherung von Aktivierungswerten während des Backpropagation (BP)-Prozesses erheblich an, selbst bei Anwendung der Gradient-Checkpointing-Technik. Um diese Herausforderung zu bewältigen, schlagen wir eine speichereffiziente und exakte BP-Methode namens StreamBP vor, die eine lineare Zerlegung der Kettenregel entlang der Sequenzdimension auf Schichtebene durchführt und dadurch die Speicherkosten für Aktivierungswerte und Logits erheblich reduziert. Die vorgeschlagene Methode ist auf gängige Ziele wie SFT, GRPO und DPO anwendbar. Aus Implementierungssicht erreicht StreamBP durch die Nutzung der kausalen Struktur des Sprachmodells weniger Rechenoperationen (FLOPs) und eine schnellere BP-Geschwindigkeit. Im Vergleich zu Gradient-Checkpointing skaliert StreamBP die maximale Sequenzlänge des BP um das 2,8- bis 5,5-fache, bei vergleichbarer oder sogar geringerer BP-Zeit. Es ist zu beachten, dass die Skalierungsfähigkeit der Sequenzlänge von StreamBP direkt auf die Skalierung der Batch-Größe übertragen werden kann, um das Training zu beschleunigen. Wir entwickeln weiterhin eine kommunikationseffiziente, verteilte Version von StreamBP, um das Multi-GPU-Training effektiv zu unterstützen und die Anwendbarkeit zu erweitern. Unser Code kann leicht in den Trainingspipeline beliebiger Transformer-Modelle integriert werden und ist unter https://github.com/Ledzy/StreamBP verfügbar.
Das Aufkommen multimodaler großer Sprachmodelle (MLLMs) hat Durchbrüche in egozentrischen Vision-Anwendungen vorangetrieben. Diese Anwendungen erfordern ein beständiges, kontextbewusstes Verständnis von Objekten, da Benutzer mit Werkzeugen in dynamischen und unübersichtlichen Umgebungen interagieren. Bisherige Benchmarks für verkörperte Systeme konzentrieren sich jedoch hauptsächlich auf die statische Erkundung von Szenen, betonen das Erscheinungsbild und die räumlichen Attribute von Objekten und vernachlässigen die Bewertung dynamischer Veränderungen, die sich aus den Interaktionen der Benutzer ergeben. Um diese Lücke zu schließen, führen wir EOC-Bench ein, einen innovativen Benchmark, der entwickelt wurde, um die objektzentrierte verkörperte Kognition in dynamischen egozentrischen Szenarien systematisch zu bewerten. Insbesondere umfasst EOC-Bench 3.277 sorgfältig annotierte Frage-Antwort-Paare, die in drei zeitliche Kategorien unterteilt sind: Vergangenheit, Gegenwart und Zukunft, und deckt 11 fein abgestufte Bewertungsdimensionen sowie drei Arten der visuellen Objektreferenzierung ab. Um eine umfassende Bewertung zu gewährleisten, entwickeln wir ein gemischtes Annotation-Framework mit menschlicher Beteiligung, das vier Fragetypen umfasst, und entwerfen eine neuartige mehrstufige zeitliche Genauigkeitsmetrik für die offene zeitliche Bewertung. Basierend auf EOC-Bench führen wir umfassende Bewertungen verschiedener proprietärer, Open-Source- und objektbezogener MLLMs durch. EOC-Bench dient als entscheidendes Werkzeug zur Weiterentwicklung der verkörperten Objektkognitionsfähigkeiten von MLLMs und schafft eine robuste Grundlage für die Entwicklung zuverlässiger Kernmodelle für verkörperte Systeme.
Die Erstellung von Texturkarten ist ein wesentlicher Bestandteil des 3D-Modellierens und bestimmt die Renderqualität. Kürzlich haben diffusionsbasierte Methoden neue Wege für die Texturgenerierung eröffnet. Allerdings können eingeschränkte Kontrollflexibilität und begrenzte Prompt-Modalitäten die Erstellung gewünschter Ergebnisse behindern. Darüber hinaus führen Inkonsistenzen zwischen generierten Multi-View-Bildern oft zu einer schlechten Texturgenerierungsqualität. Um diese Probleme zu lösen, stellen wir FlexPainter vor, eine neuartige Pipeline zur Texturgenerierung, die flexible multi-modale Bedingungsführung ermöglicht und eine hochkonsistente Texturgenerierung erreicht. Ein gemeinsamer bedingter Einbettungsraum wird konstruiert, um eine flexible Aggregation zwischen verschiedenen Eingabemodalitäten durchzuführen. Unter Nutzung dieses Einbettungsraums präsentieren wir eine bildbasierte CFG-Methode, um Struktur- und Stilinformationen zu zerlegen und eine referenzbildbasierte Stilisierung zu erreichen. Durch die Nutzung des 3D-Wissens innerhalb des Bilddiffusionspriors generieren wir zunächst Multi-View-Bilder gleichzeitig unter Verwendung einer Gitterdarstellung, um das globale Verständnis zu verbessern. Gleichzeitig schlagen wir ein View-Synchronisations- und adaptives Gewichtungsmodul während des Diffusionssamplings vor, um die lokale Konsistenz weiter zu gewährleisten. Schließlich wird ein 3D-bewusstes Texturvervollständigungsmodell in Kombination mit einem Texturverbesserungsmodell verwendet, um nahtlose, hochauflösende Texturkarten zu generieren. Umfassende Experimente zeigen, dass unser Framework sowohl in Bezug auf Flexibilität als auch auf Generierungsqualität deutlich besser abschneidet als state-of-the-art Methoden.
Chain-of-Thought (CoT) hat das mathematische Denken in Large Language Models (LLMs) erheblich verbessert, doch die Erweiterung auf multimodale Domänen bleibt eine Herausforderung. Bisherige Ansätze verwenden entweder eine ähnliche textbasierte Argumentation für Bild-Eingaben oder versuchen, visuelle Signale in mathematische CoT einzubetten. Allerdings stoßen sie bei der Lösung mathematischer Probleme auf drei wesentliche Einschränkungen: die Abhängigkeit von grob umrissenen, rechteckigen Bildregionen, die begrenzte Wahrnehmungsfähigkeit von Vision-Encodern für mathematische Inhalte und die Notwendigkeit externer Fähigkeiten zur visuellen Modifikation. In diesem Artikel stellen wir MINT-CoT vor, das Mathematical INterleaved Tokens für die visuelle Argumentation in Chain-of-Thought einführt. MINT-CoT integriert relevante visuelle Tokens adaptiv in textbasierte Argumentationsschritte über einen Interleave Token, der dynamisch visuelle Regionen beliebiger Formen innerhalb mathematischer Abbildungen auswählt. Um diese Fähigkeit zu ermöglichen, haben wir den MINT-CoT-Datensatz erstellt, der 54.000 mathematische Probleme enthält, bei denen jeder Argumentationsschritt mit visuellen Regionen auf Token-Ebene abgestimmt ist, begleitet von einem rigorosen Daten-Generierungsprozess. Darüber hinaus präsentieren wir eine dreistufige MINT-CoT-Trainingsstrategie, die textbasierte CoT SFT, eingebettete CoT SFT und eingebettete CoT RL schrittweise kombiniert, was zu unserem MINT-CoT-7B-Modell führt. Umfangreiche Experimente belegen die Effektivität unserer Methode für effiziente visuell eingebettete Argumentation in mathematischen Domänen, wobei MINT-CoT-7B das Basismodell auf MathVista um +34,08 %, auf GeoQA um +28,78 % und auf MMStar um +23,2 % übertrifft. Unser Code und die Daten sind unter https://github.com/xinyan-cxy/MINT-CoT verfügbar.
Tiefenkarten werden häufig in vorwärtsgerichteten 3D-Gaußschen Splatting (3DGS)-Pipelines verwendet, indem sie in 3D-Punktwolken zurückprojiziert werden, um die Synthese neuer Ansichten zu ermöglichen. Dieser Ansatz bietet Vorteile wie effizientes Training, die Nutzung bekannter Kameraposen und eine präzise Geometrieschätzung. Allerdings führen Tiefensprünge an Objektgrenzen oft zu fragmentierten oder spärlichen Punktwolken, was die Renderqualität beeinträchtigt – eine bekannte Einschränkung tiefenbasierter Darstellungen. Um dieses Problem zu lösen, führen wir PM-Loss ein, einen neuartigen Regularisierungsverlust, der auf einer von einem vortrainierten Transformer vorhergesagten Punktkarte basiert. Obwohl die Punktkarte selbst möglicherweise weniger genau ist als die Tiefenkarte, fördert sie effektiv geometrische Glätte, insbesondere an Objektgrenzen. Mit der verbesserten Tiefenkarte verbessert unsere Methode das vorwärtsgerichtete 3DGS über verschiedene Architekturen und Szenen hinweg signifikant und liefert durchweg bessere Renderergebnisse. Unsere Projektseite: https://aim-uofa.github.io/PMLoss
Derzeit ist der dominierende Ansatz zur Herstellung einer Sprach-Bild-Ausrichtung das gemeinsame Vortrainieren von Text- und Bildencodern durch kontrastives Lernen, wie beispielsweise CLIP und seine Varianten. In dieser Arbeit stellen wir die Frage, ob ein solch aufwendiges gemeinsames Training tatsächlich notwendig ist. Insbesondere untersuchen wir, ob ein vortrainiertes, festes großes Sprachmodell (LLM) einen ausreichend guten Textencoder bietet, um das Lernen visueller Repräsentationen zu steuern. Konkret schlagen wir vor, die Sprach-Bild-Ausrichtung mit einem festen Textencoder (LIFT) aus einem LLM zu lernen, indem nur der Bildencoder trainiert wird. Überraschenderweise zeigen umfassende Benchmarking- und Ablationsstudien, dass dieser stark vereinfachte Ansatz LIFT äußerst effektiv ist und CLIP in den meisten Szenarien, die das Verständnis von Kompositionen und lange Bildbeschreibungen betreffen, übertrifft, während gleichzeitig erhebliche Verbesserungen in der Recheneffizienz erzielt werden. Unsere Arbeit ist ein erster Schritt zur systematischen Erforschung, wie Text-Embeddings aus LLMs das visuelle Lernen leiten können, und schlägt eine alternative Designentscheidung für das Lernen sprachausgerichteter visueller Repräsentationen vor.
Autoregressive (AR) Bildgenerierungsmodelle haben zunehmend Aufmerksamkeit erregt, aufgrund ihrer Durchbrüche in der Synthesequalität, was die Notwendigkeit einer robusten Wasserzeicheneinbettung zur Verhinderung von Missbrauch unterstreicht. Bisherige Wasserzeichen-Techniken während der Generierung sind jedoch hauptsächlich für Diffusionsmodelle konzipiert, bei denen Wasserzeichen in den latenten Zuständen der Diffusion eingebettet werden. Dieses Design stellt erhebliche Herausforderungen für die direkte Anpassung an AR-Modelle dar, die Bilder sequenziell durch Token-Vorhersage erzeugen. Darüber hinaus können Diffusions-basierte Regenerationsangriffe solche Wasserzeichen effektiv entfernen, indem sie die latenten Zustände der Diffusion stören. Um diese Herausforderungen zu bewältigen, schlagen wir Lexical Bias Watermarking (LBW) vor, ein neuartiges Framework für AR-Modelle, das Regenerationsangriffe widersteht. LBW bettet Wasserzeichen direkt in Token-Karten ein, indem die Token-Auswahl während der Generierung in Richtung einer vordefinierten „Green List“ verzerrt wird. Dieser Ansatz gewährleistet eine nahtlose Integration in bestehende AR-Modelle und erweitert sich natürlich auf nachträgliche Wasserzeicheneinbettung. Um die Sicherheit gegen White-Box-Angriffe zu erhöhen, wird anstelle einer einzigen Green List die Green List für jedes Bild zufällig aus einem Pool von Green Lists ausgewählt. Die Wasserzeichenerkennung erfolgt durch Quantisierung und statistische Analyse der Token-Verteilung. Umfangreiche Experimente zeigen, dass LBW eine überlegene Robustheit der Wasserzeichen erreicht, insbesondere bei der Abwehr von Regenerationsangriffen.
Die Erzeugung und Bearbeitung von audiogesteuerten Sprechporträts, die durch multimodale Eingaben wie Text, Bilder und Videos geleitet werden, ist nach wie vor wenig erforscht. In diesem Artikel stellen wir SkyReels-Audio vor, ein einheitliches Framework zur Synthese von hochauflösenden und zeitlich kohärenten Sprechporträt-Videos. Basierend auf vortrainierten Video-Diffusion-Transformatoren unterstützt unser Framework die Erzeugung und Bearbeitung von unendlich langen Sequenzen und ermöglicht dabei eine vielfältige und kontrollierbare Steuerung durch multimodale Eingaben. Wir verwenden eine hybride Curriculum-Learning-Strategie, um Audio schrittweise mit Gesichtsbewegungen abzustimmen, was eine fein abgestimmte multimodale Steuerung über lange Videosequenzen ermöglicht. Um die lokale Gesichtskohärenz zu verbessern, führen wir einen Gesichtsmaskenverlust und einen audiogesteuerten Classifier-Free-Guidance-Mechanismus ein. Ein Sliding-Window-Denoising-Ansatz fusioniert zudem latente Darstellungen über temporale Segmente hinweg und gewährleistet so visuelle Qualität und zeitliche Konsistenz über längere Zeiträume und verschiedene Identitäten hinweg. Noch wichtiger ist, dass wir eine spezielle Datenpipeline für die Kuratierung hochwertiger Tripel bestehend aus synchronisiertem Audio, Video und Textbeschreibungen entwickeln. Umfassende Benchmark-Auswertungen zeigen, dass SkyReels-Audio eine überlegene Leistung in Bezug auf Lippensynchronität, Identitätskonsistenz und realistische Gesichtsdynamik erzielt, insbesondere unter komplexen und anspruchsvollen Bedingungen.
Dieses Papier befasst sich mit der Herausforderung, dynamische 3D-Szenen mit komplexen Bewegungen zu rekonstruieren. Einige aktuelle Arbeiten definieren 3D-Gauß-Primitive im kanonischen Raum und verwenden Deformationsfelder, um kanonische Primitive in Beobachtungsräume abzubilden, wodurch eine Echtzeit-Darstellung dynamischer Ansichten erreicht wird. Diese Methoden haben jedoch oft Schwierigkeiten, Szenen mit komplexen Bewegungen zu verarbeiten, da die Optimierung von Deformationsfeldern schwierig ist. Um dieses Problem zu überwinden, schlagen wir FreeTimeGS vor, eine neuartige 4D-Darstellung, die es Gauß-Primitiven ermöglicht, zu beliebigen Zeiten und an beliebigen Orten aufzutreten. Im Gegensatz zu kanonischen Gauß-Primitiven besitzt unsere Darstellung eine hohe Flexibilität, wodurch die Fähigkeit zur Modellierung dynamischer 3D-Szenen verbessert wird. Darüber hinaus statten wir jedes Gauß-Primitiv mit einer Bewegungsfunktion aus, die es ermöglicht, sich im Laufe der Zeit in benachbarte Regionen zu bewegen, was die zeitliche Redundanz verringert. Experimentelle Ergebnisse auf mehreren Datensätzen zeigen, dass die Darstellungsqualität unserer Methode aktuelle Methoden deutlich übertrifft.
Wir überdenken die Skalierungsgesetze zur Testzeit aus einer praktischen Effizienzperspektive und zeigen, dass die Wirksamkeit kleinerer Modelle erheblich überschätzt wird. Frühere Arbeiten, die auf Rechenoptimalität basieren, übersehen kritische Speicherzugriffsengpässe, die durch Inferenzstrategien (z. B. Best-of-N, lange CoTs) verursacht werden. Unsere ganzheitliche Analyse, die Modelle von 0,6B bis 32B Parametern umfasst, offenbart ein neues Kinetics-Skalierungsgesetz, das die Ressourcenallokation besser leitet, indem es sowohl Rechen- als auch Speicherzugriffskosten berücksichtigt. Das Kinetics-Skalierungsgesetz legt nahe, dass Rechenleistung zur Testzeit effektiver ist, wenn sie für Modelle oberhalb eines Schwellenwerts verwendet wird, als für kleinere Modelle. Ein Hauptgrund dafür ist, dass bei der Testzeitskalierung (TTS) die Aufmerksamkeit und nicht die Parameteranzahl als dominierender Kostenfaktor hervortritt. Motiviert durch diese Erkenntnis schlagen wir ein neues Skalierungsparadigma vor, das auf spärlicher Aufmerksamkeit basiert und die Kosten pro Token senkt, längere Generierungen und mehr parallele Proben innerhalb desselben Ressourcenbudgets ermöglicht. Empirisch zeigen wir, dass Modelle mit spärlicher Aufmerksamkeit durchweg ihre dichten Gegenstücke übertreffen und bei der Problemlösungsgenauigkeit auf AIME in kostengünstigen Regimen über 60 Punkte und in hochpreisigen Regimen über 5 Punkte Gewinne erzielen, einschließlich Bewertungen auf modernsten MoEs. Diese Ergebnisse deuten darauf hin, dass spärliche Aufmerksamkeit entscheidend ist, um das volle Potenzial der Testzeit-Skalierung auszuschöpfen, da im Gegensatz zum Training, bei dem die Parameterskalierung gesättigt ist, die Genauigkeit zur Testzeit durch erhöhte Generierung weiter verbessert wird. Der Code ist verfügbar unter https://github.com/Infini-AI-Lab/Kinetics.
Die allgemeine Objektkomposition (General Object Composition, GOC) zielt darauf ab, ein Zielobjekt nahtlos in eine Hintergrundszene mit gewünschten geometrischen Eigenschaften zu integrieren, während gleichzeitig seine fein abgestuften Erscheinungsdetails erhalten bleiben. Aktuelle Ansätze leiten semantische Embeddings ab und integrieren sie in fortschrittliche Diffusionsmodelle, um eine geometrie-editierbare Generierung zu ermöglichen. Diese hochkompakten Embeddings kodieren jedoch nur hochrangige semantische Hinweise und verlieren zwangsläufig fein abgestufte Erscheinungsdetails. Wir stellen ein Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD)-Modell vor, das zunächst semantische Embeddings nutzt, um die gewünschten geometrischen Transformationen implizit zu erfassen, und dann einen Cross-Attention-Retrieval-Mechanismus einsetzt, um fein abgestufte Erscheinungsmerkmale mit der geometrie-editierten Darstellung auszurichten. Dies ermöglicht sowohl präzise Geometriebearbeitung als auch treue Erhaltung des Erscheinungsbilds bei der Objektkomposition. Konkret baut DGAD auf CLIP/DINO-abgeleiteten und Referenznetzwerken auf, um semantische Embeddings und erscheinungserhaltende Repräsentationen zu extrahieren, die dann auf entkoppelte Weise nahtlos in die Encoder- und Decoder-Pipelines integriert werden. Zunächst integrieren wir die semantischen Embeddings in vortrainierte Diffusionsmodelle, die starke räumliche Schlussfolgerungsfähigkeiten aufweisen, um die Objektgeometrie implizit zu erfassen und so flexible Objektmanipulationen zu ermöglichen und eine effektive Editierbarkeit sicherzustellen. Anschließend entwerfen wir einen dichten Cross-Attention-Mechanismus, der die implizit gelernte Objektgeometrie nutzt, um Erscheinungsmerkmale abzurufen und räumlich mit ihren entsprechenden Regionen auszurichten, wodurch eine treue Erscheinungskonsistenz gewährleistet wird. Umfangreiche Experimente auf öffentlichen Benchmarks demonstrieren die Wirksamkeit des vorgeschlagenen DGAD-Frameworks.
In Studien zum transferierbaren Lernen werden Skalierungsgesetze für verschiedene wichtige Foundation-Modelle abgeleitet, um deren Eigenschaften und Leistung bei größeren Skalen vorherzusagen. Wir zeigen hier, wie die Ableitung von Skalierungsgesetzen auch für den Vergleich von Modellen und Datensätzen genutzt werden kann, um zu entscheiden, welches Verfahren für das Pre-Training bevorzugt werden sollte. Zum ersten Mal werden vollständige Skalierungsgesetze basierend auf dichten Messungen über einen breiten Bereich von Modell- und Stichprobengrößen für zwei wichtige Sprach-Bild-Lernverfahren, CLIP und MaMMUT, abgeleitet, die entweder nur kontrastive oder kontrastive und beschreibende textgenerative Verluste verwenden. Um eine ausreichende Vorhersagegenauigkeit für zurückgehaltene Punkte sicherzustellen, nutzen wir die abgeleiteten Skalierungsgesetze, um beide Modelle zu vergleichen, und erhalten Hinweise darauf, dass MaMMUT eine stärkere Verbesserung mit der Skalierung und eine bessere Stichprobeneffizienz als das Standard-CLIP aufweist. Um die Validität des Vergleichs zu stärken, zeigen wir Skalierungsgesetze für verschiedene Downstream-Aufgaben, Klassifikation, Retrieval und Segmentierung, sowie für verschiedene offene Datensätze, DataComp, DFN und Re-LAION, und beobachten dabei konsistent die gleichen Trends. Wir zeigen, dass der Vergleich auch durchgeführt werden kann, wenn Skalierungsgesetze mit einem konstanten Lernratenplan abgeleitet werden, was die Rechenkosten reduziert. Die genaue Ableitung von Skalierungsgesetzen bietet somit die Möglichkeit, Modell- und Datensatzvergleiche über Skalenbereiche hinweg durchzuführen, und vermeidet irreführende Schlussfolgerungen, die auf Messungen von einzelnen Referenzskalen basieren, und ebnet den Weg für einen systematischen Vergleich und die Verbesserung offener Foundation-Modelle und Datensätze für deren Erstellung. Wir veröffentlichen alle vortrainierten Modelle mit ihren Zwischencheckpoints, einschließlich openMaMMUT-L/14, das eine Zero-Shot-Genauigkeit von 80,3 % auf ImageNet-1k erreicht, trainiert auf 12,8 Mrd. Stichproben aus DataComp-1.4B. Der Code zur Reproduktion der Experimente im Papier und die Rohdaten der Experimente finden sich unter https://github.com/LAION-AI/scaling-laws-for-comparison.
Wir stellen MedAgentGYM vor, die erste öffentlich verfügbare Trainingsumgebung, die entwickelt wurde, um die codierungsbasierten medizinischen Denkfähigkeiten von großen Sprachmodellen (LLM-Agenten) zu verbessern. MedAgentGYM umfasst 72.413 Aufgabeninstanzen aus 129 Kategorien, die aus authentischen, realen biomedizinischen Szenarien abgeleitet sind. Die Aufgaben sind in ausführbaren Codierungsumgebungen eingebettet, die jeweils detaillierte Aufgabenbeschreibungen, interaktive Feedbackmechanismen, überprüfbare Ground-Truth-Annotationen und skalierbare Trainingspfadgenerierung bieten. Umfangreiche Benchmarking-Ergebnisse von über 30 LLMs zeigen eine bemerkenswerte Leistungsdiskrepanz zwischen kommerziellen API-basierten Modellen und Open-Source-Alternativen. Durch die Nutzung von MedAgentGYM erzielt Med-Copilot-7B erhebliche Leistungssteigerungen durch überwachtes Fein-Tuning (+36,44 %) und fortlaufendes Reinforcement Learning (+42,47 %) und etabliert sich als kostengünstige und datenschutzfreundliche Alternative, die mit gpt-4o konkurrieren kann. Indem MedAgentGYM sowohl einen umfassenden Benchmark als auch zugängliche, erweiterbare Trainingsressourcen in einheitlichen Ausführungsumgebungen bietet, stellt es eine integrierte Plattform zur Entwicklung von LLM-basierten Codierungsassistenten für fortgeschrittene biomedizinische Forschung und Praxis bereit.
Die meisten bestehenden Vision-Encoder bilden Bilder in eine feste Sequenz von Tokens ab, wobei sie den Umstand außer Acht lassen, dass verschiedene Bilder unterschiedliche Mengen an Informationen enthalten. Beispielsweise trägt ein visuell komplexes Bild (z. B. ein unordentlicher Raum) von Natur aus mehr Informationen und verdient daher mehr Tokens als ein einfaches Bild (z. B. eine leere Wand). Um diese Ineffizienz zu beheben, schlagen wir DOVE vor, einen dynamischen Vision-Encoder, der eine variable Anzahl von visuellen Tokens (d. h. kontinuierliche Repräsentationsvektoren) erzeugt, um jedes Bild zu rekonstruieren. Unsere Ergebnisse zeigen, dass DOVE die durchschnittliche Anzahl der Tokens erheblich reduziert, während eine hohe Rekonstruktionsqualität erhalten bleibt. In mehreren Linear-Probing- und nachgelagerten multimodalen Aufgaben übertrifft es bestehende Autoencoder-basierte Tokenisierungsmethoden, wenn weitaus weniger Tokens verwendet werden, und erfasst ausdrucksstärkere semantische Merkmale im Vergleich zur Festlängen-Kodierung. Wir erweitern DOVE weiterhin mit einer abfragebedingten Tokenisierung. Indem das Modell dazu angeleitet wird, sich auf abfragerelevante Regionen zu konzentrieren, erreicht es eine effizientere und gezieltere semantische Extraktion. Unser Code und unsere Checkpoints sind unter https://dove-encoder.github.io/dove-encoder verfügbar.
3D Gaussian Splatting (3DGS) hat aufgrund seiner Echtzeit- und fotorealistischen Darstellung in der Neuansichtssynthese und 3D-Modellierung erhebliche Aufmerksamkeit erlangt. Allerdings haben bestehende Methoden Schwierigkeiten, Szenen, die von transienten Objekten beeinflusst werden, präzise zu modellieren, was zu Artefakten in den gerenderten Bildern führt. Wir stellen fest, dass der Prozess der Gaussian-Densifikation, obwohl er die Erfassung von Szenendetails verbessert, unbeabsichtigt zu diesen Artefakten beiträgt, indem zusätzliche Gaussians erzeugt werden, die transiente Störungen modellieren. Um dies zu beheben, schlagen wir RobustSplat vor, eine robuste Lösung, die auf zwei entscheidenden Designs basiert. Erstens führen wir eine verzögerte Gaussian-Wachstumsstrategie ein, die die Optimierung der statischen Szenenstruktur priorisiert, bevor das Teilen/Klonen von Gaussians erlaubt wird, wodurch eine Überanpassung an transiente Objekte in der frühen Optimierung gemildert wird. Zweitens entwerfen wir einen skalenkaskadierten Masken-Bootstrapping-Ansatz, der zunächst die Ähnlichkeit von Merkmalen mit niedrigerer Auflösung zur zuverlässigen anfänglichen Schätzung transienter Masken nutzt, wodurch deren stärkere semantische Konsistenz und Robustheit gegenüber Rauschen ausgenutzt wird, und dann zu einer hochauflösenden Überwachung übergeht, um eine präzisere Maskenvorhersage zu erreichen. Umfangreiche Experimente auf mehreren anspruchsvollen Datensätzen zeigen, dass unsere Methode bestehende Methoden übertrifft und die Robustheit und Effektivität unserer Methode deutlich demonstriert. Unsere Projektseite ist https://fcyycf.github.io/RobustSplat/.
Während das Zeitalter autonomer Agenten, die im Namen von Nutzern Entscheidungen treffen, anbricht, wird die Sicherstellung der kontextuellen Integrität (CI) – also die Frage, welche Informationen angemessen sind, um eine bestimmte Aufgabe auszuführen – zu einer zentralen Fragestellung in diesem Bereich. Wir vertreten die Ansicht, dass CI eine Form des Denkens erfordert, bei der der Agent den Kontext, in dem er agiert, berücksichtigen muss. Um dies zu testen, fordern wir zunächst große Sprachmodelle (LLMs) dazu auf, explizit über CI nachzudenken, wenn sie entscheiden, welche Informationen preisgegeben werden sollen. Anschließend erweitern wir diesen Ansatz, indem wir ein Reinforcement-Learning (RL)-Framework entwickeln, das den Modellen das notwendige Denken vermittelt, um CI zu erreichen. Mithilfe eines synthetischen, automatisch erstellten Datensatzes mit nur etwa 700 Beispielen, aber vielfältigen Kontexten und Normen zur Informationsweitergabe, zeigen wir, dass unsere Methode die unangemessene Weitergabe von Informationen erheblich reduziert, während die Aufgabenleistung über verschiedene Modellgrößen und -familien hinweg erhalten bleibt. Entscheidend ist, dass die Verbesserungen von diesem synthetischen Datensatz auf etablierte CI-Benchmarks wie PrivacyLens übertragbar sind, die menschliche Annotationen enthalten und die Datenschutzverletzungen von KI-Assistenten in Aktionen und Tool-Aufrufen bewerten.
Wir stellen Rectified Point Flow vor, eine einheitliche Parametrisierung, die die paarweise Registrierung von Punktwolken und die Zusammenfügung mehrteiliger Formen als ein einziges bedingtes generatives Problem formuliert. Bei gegebenen ungeordneten Punktwolken lernt unsere Methode ein kontinuierliches punktweises Geschwindigkeitsfeld, das verrauschte Punkte zu ihren Zielpositionen transportiert, aus denen die Teilpositionen wiederhergestellt werden. Im Gegensatz zu früheren Arbeiten, die teilweise Positionen mit ad-hoc-Symmetriebehandlung regressieren, lernt unsere Methode intrinsisch Montagesymmetrien ohne Symmetrielabels. Zusammen mit einem selbstüberwachten Encoder, der sich auf überlappende Punkte konzentriert, erreicht unsere Methode eine neue Bestleistung auf sechs Benchmarks, die die paarweise Registrierung und Formzusammenfügung abdecken. Bemerkenswerterweise ermöglicht unsere einheitliche Formulierung ein effektives gemeinsames Training auf verschiedenen Datensätzen, was das Lernen gemeinsamer geometrischer Prioritäten erleichtert und folglich die Genauigkeit steigert. Projektseite: https://rectified-pointflow.github.io/.
Retrieval-Augmented Generation (RAG)-Systeme leiden häufig unter Wissenskonflikten, bei denen das abgerufene externe Wissen dem inhärenten, parametrischen Wissen großer Sprachmodelle (LLMs) widerspricht. Dies beeinträchtigt die Leistung bei nachgelagerten Aufgaben wie Frage-Antwort-Systemen (QA). Bestehende Ansätze versuchen oft, Konflikte zu mildern, indem sie zwei Wissensquellen direkt nebeneinander vergleichen. Dies kann LLMs jedoch mit überflüssigen oder langen Kontexten überfordern und letztlich ihre Fähigkeit beeinträchtigen, Inkonsistenzen zu erkennen und zu beheben. Um dieses Problem zu lösen, schlagen wir Micro-Act vor, ein Framework mit einem hierarchischen Aktionsraum, das die Kontextkomplexität automatisch wahrnimmt und jede Wissensquelle adaptiv in eine Sequenz feingranularer Vergleiche zerlegt. Diese Vergleiche werden als ausführbare Schritte dargestellt, was eine tiefgreifendere Kontextanalyse ermöglicht. Durch umfangreiche Experimente mit fünf Benchmark-Datensätzen erzielt Micro-Act durchweg eine signifikante Steigerung der QA-Genauigkeit gegenüber den aktuellsten Baselines über alle fünf Datensätze und drei Konflikttypen hinweg, insbesondere bei zeitlichen und semantischen Typen, bei denen alle Baselines deutlich scheitern. Noch wichtiger ist, dass Micro-Act gleichzeitig eine robuste Leistung bei nicht-konfliktbezogenen Fragen zeigt, was seinen praktischen Wert in realen RAG-Anwendungen unterstreicht.
Die Synthese hochwertiger dynamischer medizinischer Videos bleibt eine erhebliche Herausforderung, da sowohl die räumliche Konsistenz als auch die zeitliche Dynamik modelliert werden müssen. Bestehende Transformer-basierte Ansätze stoßen auf kritische Einschränkungen, darunter unzureichende Kanalinteraktionen, hohe Rechenkomplexität durch Self-Attention und grobe Rauschunterdrückungsführung durch Zeitschritt-Einbettungen bei der Handhabung variierender Rauschpegel. In dieser Arbeit schlagen wir FEAT vor, einen effizienten Attention-Transformer mit vollständiger Dimension, der diese Probleme durch drei Schlüsselinnovationen adressiert: (1) ein einheitliches Paradigma mit sequenziellen räumlich-zeitlich-kanalbezogenen Attention-Mechanismen, um globale Abhängigkeiten über alle Dimensionen zu erfassen, (2) ein linear-komplexes Design für Attention-Mechanismen in jeder Dimension, das gewichtete Key-Value-Attention und globale Kanal-Attention nutzt, und (3) ein Residual Value Guidance-Modul, das fein abgestimmte pixelgenaue Führung bietet, um sich an verschiedene Rauschpegel anzupassen. Wir evaluieren FEAT anhand von Standard-Benchmarks und nachgelagerten Aufgaben und zeigen, dass FEAT-S, mit nur 23 % der Parameter des State-of-the-Art-Modells Endora, vergleichbare oder sogar überlegene Leistung erzielt. Darüber hinaus übertrifft FEAT-L alle Vergleichsmethoden über mehrere Datensätze hinweg und demonstriert sowohl überlegene Effektivität als auch Skalierbarkeit. Der Code ist verfügbar unter https://github.com/Yaziwel/FEAT.
Die Bearbeitung von Materialien von Objekten in Bildern auf der Grundlage von Beispielbildern ist ein aktives Forschungsgebiet in der Computer Vision und Grafik. Wir stellen MARBLE vor, eine Methode zur Durchführung von Materialmischungen und zur Neuzusammensetzung fein abgestufter Materialeigenschaften, indem Material-Einbettungen im CLIP-Raum gefunden und diese zur Steuerung vortrainierter Text-zu-Bild-Modelle verwendet werden. Wir verbessern die exemplarbasierte Materialbearbeitung, indem wir einen Block im Denoising-UNet identifizieren, der für die Materialzuweisung verantwortlich ist. Bei zwei Material-Beispielbildern finden wir Richtungen im CLIP-Raum, um die Materialien zu mischen. Darüber hinaus können wir eine parametrische Kontrolle über fein abgestufte Materialattribute wie Rauheit, Metallizität, Transparenz und Leuchten erreichen, indem wir ein flaches Netzwerk verwenden, um die Richtung für die gewünschte Materialattributänderung vorherzusagen. Wir führen qualitative und quantitative Analysen durch, um die Wirksamkeit unserer vorgeschlagenen Methode zu demonstrieren. Wir zeigen auch die Fähigkeit unserer Methode, mehrere Bearbeitungen in einem einzigen Vorwärtsdurchlauf durchzuführen, sowie ihre Anwendbarkeit in der Malerei. Projektseite: https://marblecontrol.github.io/
Textgesteuerte Videobearbeitung zielt darauf ab, Videoinhalte gemäß natürlicher Sprachanweisungen zu modifizieren. Während neuere trainingsfreie Ansätze Fortschritte gemacht haben, indem sie vortrainierte Diffusionsmodelle nutzen, verlassen sie sich typischerweise auf inversionsbasierte Techniken, die Eingabevideos in den latenten Raum abbilden, was oft zu zeitlichen Inkonsistenzen und einer verringerten strukturellen Treue führt. Um dies zu adressieren, schlagen wir FlowDirector vor, ein neuartiges inversionsfreies Videobearbeitungsframework. Unser Framework modelliert den Bearbeitungsprozess als direkte Evolution im Datenraum, die das Video über eine gewöhnliche Differentialgleichung (ODE) entlang seines inhärenten raumzeitlichen Manifolds sanft überführt und dadurch zeitliche Kohärenz und strukturelle Details bewahrt. Um lokalisierte und kontrollierbare Bearbeitungen zu erreichen, führen wir einen aufmerksamkeitsgesteuerten Maskierungsmechanismus ein, der das ODE-Geschwindigkeitsfeld moduliert und nicht-zielbezogene Regionen sowohl räumlich als auch zeitlich erhält. Darüber hinaus präsentieren wir, um unvollständige Bearbeitungen zu adressieren und die semantische Ausrichtung an Bearbeitungsanweisungen zu verbessern, eine leitungsverstärkte Bearbeitungsstrategie, die von Classifier-Free Guidance inspiriert ist und differenzielle Signale zwischen mehreren Kandidatenflüssen nutzt, um die Bearbeitungstrajektorie in Richtung einer stärkeren semantischen Ausrichtung zu lenken, ohne die strukturelle Konsistenz zu beeinträchtigen. Umfangreiche Experimente über Benchmarks hinweg zeigen, dass FlowDirector Spitzenleistungen in Bezug auf Anweisungsbefolgung, zeitliche Konsistenz und Hintergrundbewahrung erreicht und damit ein neues Paradigma für effiziente und kohärente Videobearbeitung ohne Inversion etabliert.
Jüngste Fortschritte bei langsamen Denkmodellen für Sprache (z. B. OpenAI-o1 und DeepSeek-R1) haben bemerkenswerte Fähigkeiten in komplexen Denkaufgaben durch die Nachahmung menschlicher reflektiver Kognition demonstriert. Die Erweiterung solcher Fähigkeiten auf multimodale große Sprachmodelle (MLLMs) bleibt jedoch aufgrund der hohen Kosten für das erneute Trainieren von Vision-Sprache-Alignments bei der Aktualisierung der zugrunde liegenden Denk-LMMs eine Herausforderung. Eine einfache Lösung besteht darin, die Wahrnehmung vom Denken zu entkoppeln, d. h., visuelle Eingaben in Sprachrepräsentationen (z. B. Bildbeschreibungen) umzuwandeln, die dann an einen leistungsstarken Text-Denker weitergegeben werden. Diese Entkopplung führt jedoch zu einer kritischen Herausforderung: Der visuelle Extraktor muss Beschreibungen generieren, die sowohl treu zum Bild als auch informativ genug sind, um präzises nachgelagertes Denken zu unterstützen. Um dies zu adressieren, schlagen wir Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) vor – eine denkgeleitete Verstärkungslernstrategie, die das Beschreibungsverhalten des Extractors mit dem Denkziel in Einklang bringt. Durch das Schließen der Wahrnehmungs-Denk-Schleife über belohnungsbasierte Optimierung verbessert RACRO die visuelle Verankerung signifikant und extrahiert denkoptimierte Repräsentationen. Experimente auf multimodalen Mathematik- und Wissenschaftsbenchmarks zeigen, dass die vorgeschlagene RACRO-Methode eine state-of-the-art Durchschnittsleistung erreicht und gleichzeitig überlegene Skalierbarkeit sowie Plug-and-Play-Anpassung an fortschrittlichere Denk-LMMs ermöglicht, ohne die Notwendigkeit kostspieliger multimodaler Neuausrichtung.
Wasserzeichen-Techniken für große Sprachmodelle (LLMs) können die Ausgabequalität erheblich beeinflussen, doch ihre Auswirkungen auf Wahrhaftigkeit, Sicherheit und Hilfsbereitschaft bleiben kritisch untererforscht. Diese Arbeit präsentiert eine systematische Analyse, wie zwei populäre Wasserzeichen-Ansätze – Gumbel und KGW – diese zentralen Ausrichtungsmerkmale bei vier ausgerichteten LLMs beeinflussen. Unsere Experimente zeigen zwei unterschiedliche Verschlechterungsmuster: die Abschwächung von Schutzmechanismen, bei der eine verbesserte Hilfsbereitschaft die Modellsicherheit untergräbt, und die Verstärkung von Schutzmechanismen, bei der übermäßige Vorsicht die Hilfsbereitschaft des Modells reduziert. Diese Muster entstehen durch wasserzeichenbedingte Verschiebungen in der Token-Verteilung und verdeutlichen die grundlegende Spannung, die zwischen den Ausrichtungszielen besteht. Um diese Verschlechterungen zu mildern, schlagen wir Alignment Resampling (AR) vor, eine Inferenzzeit-Sampling-Methode, die ein externes Belohnungsmodell verwendet, um die Ausrichtung wiederherzustellen. Wir legen eine theoretische Untergrenze für die Verbesserung des erwarteten Belohnungswerts fest, wenn die Stichprobengröße erhöht wird, und zeigen empirisch, dass das Sampling von nur 2-4 wasserzeichenmarkierten Generationen die Basislinie (unmarkierte) Ausrichtungswerte effektiv wiederherstellt oder übertrifft. Um die begrenzte Antwortvielfalt des standardmäßigen Gumbel-Wasserzeichens zu überwinden, opfert unsere modifizierte Implementierung die strikte Verzerrungsfreiheit, behält jedoch eine robuste Erkennbarkeit bei und gewährleistet so die Kompatibilität mit AR. Experimentelle Ergebnisse bestätigen, dass AR die Basislinienausrichtung bei beiden Wasserzeichen-Ansätzen erfolgreich wiederherstellt, während eine starke Wasserzeichen-Erkennbarkeit erhalten bleibt. Diese Arbeit offenbart das kritische Gleichgewicht zwischen der Stärke des Wasserzeichens und der Modellausrichtung und bietet eine einfache Inferenzzeit-Lösung, um wasserzeichenmarkierte LLMs verantwortungsvoll in der Praxis einzusetzen.
Eine präzise LiDAR-Kamera-Kalibrierung ist grundlegend für die Fusion multimodaler Wahrnehmung in autonomen Fahrzeugen und Robotersystemen. Traditionelle Kalibrierungsmethoden erfordern eine umfangreiche Datenerfassung in kontrollierten Umgebungen und können Transformationsänderungen während der Bewegung des Fahrzeugs/Roboters nicht ausgleichen. In diesem Artikel präsentieren wir das erste Modell, das Vogelperspektiven-Features (BEV) verwendet, um die LiDAR-Kamera-Kalibrierung aus Rohdaten durchzuführen, genannt BEVCALIB. Um dies zu erreichen, extrahieren wir Kamera-BEV-Features und LiDAR-BEV-Features separat und fusionieren sie in einem gemeinsamen BEV-Feature-Raum. Um die geometrischen Informationen aus den BEV-Features vollständig zu nutzen, führen wir einen neuartigen Feature-Selektor ein, der die wichtigsten Features im Transformations-Decoder filtert, was den Speicherverbrauch reduziert und ein effizientes Training ermöglicht. Umfangreiche Auswertungen auf den Datensätzen KITTI, NuScenes und unserem eigenen Datensatz zeigen, dass BEVCALIB einen neuen Stand der Technik etabliert. Unter verschiedenen Rauschbedingungen übertrifft BEVCALIB die beste Baseline in der Literatur im Durchschnitt um (47,08 %, 82,32 %) auf dem KITTI-Datensatz und (78,17 %, 68,29 %) auf dem NuScenes-Datensatz in Bezug auf (Translation, Rotation). Im Open-Source-Bereich verbessert es die beste reproduzierbare Baseline um eine Größenordnung. Unser Code und Demo-Ergebnisse sind verfügbar unter https://cisl.ucr.edu/BEVCalib.
Die Generierung von Hand-Objekt-Interaktionen (HOI) birgt ein erhebliches Anwendungspotenzial. Allerdings stützen sich aktuelle Ansätze zur 3D-HOI-Bewegungsgenerierung stark auf vordefinierte 3D-Objektmodelle und im Labor erfasste Bewegungsdaten, was die Generalisierungsfähigkeit einschränkt. Gleichzeitig priorisieren Methoden zur HOI-Videogenerierung die pixelgenaue visuelle Wiedergabetreue, oft auf Kosten der physikalischen Plausibilität. Da visuelle Erscheinung und Bewegungsmuster in der realen Welt grundlegenden physikalischen Gesetzen folgen, schlagen wir ein neuartiges Framework vor, das visuelle Prioritäten und dynamische Einschränkungen innerhalb eines synchronisierten Diffusionsprozesses kombiniert, um HOI-Videos und -Bewegungen gleichzeitig zu generieren. Um die heterogenen Semantiken, Erscheinungsmerkmale und Bewegungsmerkmale zu integrieren, implementiert unsere Methode eine tri-modale adaptive Modulation zur Merkmalsausrichtung, gekoppelt mit 3D-Vollaufmerksamkeit zur Modellierung inter- und intra-modaler Abhängigkeiten. Darüber hinaus führen wir ein visuell bewusstes 3D-Interaktionsdiffusionsmodell ein, das explizite 3D-Interaktionssequenzen direkt aus den synchronisierten Diffusionsausgaben generiert und diese dann zurückführt, um einen geschlossenen Feedback-Zyklus zu etablieren. Diese Architektur eliminiert die Abhängigkeit von vordefinierten Objektmodellen oder expliziter Posenerkennung und verbessert gleichzeitig die Konsistenz zwischen Video und Bewegung deutlich. Experimentelle Ergebnisse demonstrieren die Überlegenheit unserer Methode gegenüber modernsten Ansätzen bei der Generierung von hochwertigen, dynamisch plausiblen HOI-Sequenzen mit bemerkenswerten Generalisierungsfähigkeiten in unbekannten realen Szenarien. Projektseite unter https://github.com/Droliven/SViMo\_project.
Die präzise Vorhersage von 3D-Okkupanzgittern aus visuellen Eingaben ist entscheidend für das autonome Fahren, doch aktuelle diskriminative Methoden kämpfen mit verrauschten Daten, unvollständigen Beobachtungen und den komplexen Strukturen, die in 3D-Szenen inhärent sind. In dieser Arbeit formulieren wir die 3D-Okkupanzvorhersage als eine generative Modellierungsaufgabe unter Verwendung von Diffusionsmodellen, die die zugrunde liegende Datenverteilung erlernen und 3D-Szenenprioritäten einbeziehen. Dieser Ansatz verbessert die Vorhersagekonsistenz, die Robustheit gegenüber Rauschen und bewältigt besser die Komplexität von 3D-Raumstrukturen. Unsere umfangreichen Experimente zeigen, dass generative Diffusionsmodelle state-of-the-art diskriminative Ansätze übertreffen und realistischere und genauere Okkupanzvorhersagen liefern, insbesondere in verdeckten oder schlecht sichtbaren Bereichen. Darüber hinaus profitieren nachgelagerte Planungsaufgaben erheblich von den verbesserten Vorhersagen, was die praktischen Vorteile unserer Methode für reale Anwendungen des autonomen Fahrens unterstreicht.
Die automatisierte Bewertung von sportlichen Fähigkeiten erfordert die Erfassung grundlegender Bewegungsmuster, die Expertenleistungen von Anfängerleistungen unterscheiden. Aktuelle Videoabtastmethoden unterbrechen jedoch die zeitliche Kontinuität, die für die Bewertung der Kompetenz entscheidend ist. Zu diesem Zweck führen wir Proficiency-Aware Temporal Sampling (PATS) ein, eine neuartige Abtaststrategie, die vollständige grundlegende Bewegungen innerhalb kontinuierlicher zeitlicher Segmente für die Bewertung von Fähigkeiten aus mehreren Blickwinkeln bewahrt. PATS segmentiert Videos adaptiv, um sicherzustellen, dass jeder analysierte Abschnitt die vollständige Ausführung kritischer Leistungskomponenten enthält. Dieser Prozess wird über mehrere Segmente hinweg wiederholt, um die Informationsabdeckung zu maximieren und gleichzeitig die zeitliche Kohärenz zu erhalten. Bewertet auf der EgoExo4D-Benchmark mit SkillFormer, übertrifft PATS die state-of-the-art Genauigkeit in allen Blickkonfigurationen (+0,65 % bis +3,05 %) und erzielt erhebliche Verbesserungen in anspruchsvollen Domänen (+26,22 % Bouldern, +2,39 % Musik, +1,13 % Basketball). Eine systematische Analyse zeigt, dass PATS erfolgreich an verschiedene Aktivitätsmerkmale angepasst werden kann – von der Hochfrequenzabtastung für dynamische Sportarten bis zur fein abgestuften Segmentierung für sequenzielle Fähigkeiten – und demonstriert damit seine Effektivität als adaptiver Ansatz zur zeitlichen Abtastung, der die automatisierte Bewertung von Fähigkeiten für reale Anwendungen vorantreibt.
Die automatisierte Interpretation von CT-Bildern – insbesondere die Lokalisierung und Beschreibung von abnormalen Befunden in multiplanaren und Ganzkörperaufnahmen – bleibt eine bedeutende Herausforderung in der klinischen Radiologie. Diese Arbeit zielt darauf ab, diese Herausforderung durch vier wesentliche Beiträge zu adressieren: (i) In Bezug auf die Taxonomie arbeiten wir mit erfahrenen Radiologen zusammen, um ein umfassendes hierarchisches Klassifikationssystem vorzuschlagen, das 404 repräsentative abnormale Befunde aus allen Körperregionen umfasst; (ii) Im Bereich der Daten stellen wir einen Datensatz bereit, der über 14.500 CT-Bilder aus multiplanaren Aufnahmen und allen menschlichen Körperregionen enthält, und liefern sorgfältig annotierte Referenzdaten für über 19.000 Abnormalitäten, die jeweils mit detaillierten Beschreibungen versehen und in die Taxonomie eingeordnet sind; (iii) Bei der Modellentwicklung präsentieren wir OminiAbnorm-CT, das automatisch abnormale Befunde in multiplanaren und Ganzkörper-CT-Bildern basierend auf Textanfragen lokalisieren und beschreiben kann, während es gleichzeitig flexible Interaktionen durch visuelle Eingaben ermöglicht; (iv) Im Hinblick auf Benchmarks etablieren wir drei repräsentative Evaluierungsaufgaben, die auf realen klinischen Szenarien basieren. Durch umfangreiche Experimente zeigen wir, dass OminiAbnorm-CT bestehende Methoden in allen Aufgaben und Metriken deutlich übertreffen kann.
Wie sprachspezifisch sind die Sprachrepräsentationen, die durch selbstüberwachte Modelle erlernt werden? Bisherige Arbeiten haben gezeigt, dass eine Vielzahl linguistischer Merkmale erfolgreich aus end-to-end-Modellen decodiert werden kann, die ausschließlich auf Sprachaufnahmen trainiert wurden. Es ist jedoch weniger klar, inwieweit das Vortraining auf bestimmte Sprachen die sprachspezifischen linguistischen Informationen verbessert. Hier testen wir die Kodierung niederländischer phonetischer und lexikalischer Informationen in den internen Repräsentationen selbstüberwachter Wav2Vec2-Modelle. Das ausschließliche Vortraining auf Niederländisch verbessert die Repräsentation niederländischer linguistischer Merkmale im Vergleich zum Vortraining mit ähnlichen Mengen an englischen oder größeren Mengen an mehrsprachigen Daten. Dieser sprachspezifische Vorteil wird gut durch trainierte Clustering- oder Klassifikationssonden erkannt und ist teilweise auch mit Zero-Shot-Metriken beobachtbar. Darüber hinaus korreliert der sprachspezifische Nutzen bei der Kodierung linguistischer Merkmale mit der nachgelagerten Leistung bei der automatischen Spracherkennung.