papers.description
Wir stellen SAM 3D vor, ein generatives Modell für visuell fundierte 3D-Objektrekonstruktion, das Geometrie, Textur und Anordnung aus einem einzelnen Bild vorhersagt. SAM 3D überzeugt insbesondere bei natürlichen Bildern, in denen Verdeckungen und Szenenunordnung häufig auftreten und visuelle Erkennungshinweise aus dem Kontext eine größere Rolle spielen. Wir erreichen dies mit einer Pipeline, die Mensch und Modell einbezieht, um Objektform, Textur und Pose zu annotieren und so visuell fundierte 3D-Rekonstruktionsdaten in bisher unerreichtem Umfang bereitzustellen. Wir lernen aus diesen Daten in einem modernen, mehrstufigen Trainingsframework, das synthetisches Vortraining mit Realwelt-Abgleich kombiniert und damit die 3D-"Datenschranke" durchbricht. Wir erzielen signifikante Verbesserungen gegenüber aktuellen Arbeiten, mit mindestens einer 5:1-Gewinnrate in menschlichen Präferenztests für Objekte und Szenen aus der realen Welt. Wir werden unseren Code und unsere Modellgewichte, eine Online-Demo sowie einen neuen anspruchsvollen Benchmark für 3D-Objektrekonstruktion in unkontrollierten Umgebungen veröffentlichen.
Große Sprachmodell (LLM)-Agenten, die häufig mit Verstärkendem Lernen (RL) trainiert werden, sind durch ihre Abhängigkeit von menschlich kuratierten Daten eingeschränkt, was die Skalierbarkeit begrenzt und KI an menschliches Wissen bindet. Bestehende Selbst-Evolutions-Frameworks bieten eine Alternative, sind jedoch typischerweise durch die inhärenten Fähigkeiten des Modells und Einzelrunden-Interaktionen beschränkt, was die Entwicklung komplexer Lehrpläne mit Werkzeugnutzung oder dynamischem Schlussfolgern behindert. Wir stellen Agent0 vor, ein vollständig autonomes Framework, das hochleistungsfähige Agenten ohne externe Daten durch mehrstufige Ko-Evolution und nahtlose Werkzeugintegration entwickelt. Agent0 etabliert einen symbiotischen Wettbewerb zwischen zwei Agenten, die aus demselben Basis-LLM initialisiert werden: einem Lehrplan-Agenten, der zunehmend herausfordernde Grenzaufgaben vorschlägt, und einem Ausführungs-Agenten, der lernt, diese zu lösen. Wir integrieren externe Werkzeuge, um die Problemlösungsfähigkeit des Ausführungs-Agenten zu erweitern; diese Verbesserung zwingt wiederum den Lehrplan-Agenten, komplexere, werkzeugbewusste Aufgaben zu konstruieren. Durch diesen iterativen Prozess etabliert Agent0 einen sich selbst verstärkenden Zyklus, der kontinuierlich hochwertige Lehrpläne erzeugt. Empirisch steigert Agent0 die Fähigkeiten zum Schlussfolgern erheblich und verbessert das Qwen3-8B-Base-Modell um 18 % bei mathematischem und um 24 % bei allgemeinen Reasoning-Benchmarks. Der Code ist verfügbar unter https://github.com/aiming-lab/Agent0.
Welche Rolle spielt das erste Bild in Videogenerierungsmodellen? Traditionell wird es als räumlich-zeitlicher Ausgangspunkt eines Videos betrachtet, lediglich als Keimzelle für die nachfolgende Animation. In dieser Arbeit zeigen wir eine grundlegend andere Perspektive auf: Videomodelle behandeln das erste Bild implizit als konzeptuellen Speicherpuffer, der visuelle Entitäten für die spätere Wiederverwendung während der Generierung speichert. Indem wir diese Erkenntnis nutzen, demonstrieren wir, dass eine robuste und generalisierte Anpassung von Videoinhalten in verschiedenen Szenarien möglich ist – mit nur 20-50 Trainingsbeispielen, ohne Architekturänderungen oder umfangreiche Feinabstimmung. Dies enthüllt eine mächtige, übersehene Fähigkeit von Videogenerierungsmodellen zur referenzbasierten Videopersonalisierung.
Jüngste Fortschritte bei Reasoning-Modellen haben durch erweiterte Chain-of-Thought-Überlegungen bemerkenswerte Erfolge in Text- und Bilddomänen gezeigt. Jedoch besteht ein rätselhaftes Phänomen bei Audio-Sprachmodellen fort: Sie schneiden konsequent besser mit minimalem oder keinem Reasoning ab, was eine grundlegende Frage aufwirft – kann Audio-Intelligenz wirklich von bewusstem Denken profitieren? Wir stellen Step-Audio-R1 vor, das erste Audio-Reasoning-Modell, das erfolgreich Reasoning-Fähigkeiten in der Audiosphere freisetzt. Durch unseren vorgeschlagenen Modality-Grounded Reasoning Distillation (MGRD)-Rahmen lernt Step-Audio-R1, audiobezogene Reasoning-Ketten zu generieren, die sich tatsächlich in akustischen Merkmalen verankern, anstatt unzusammenhängende Überlegungen zu halluzinieren. Unser Modell zeigt starke Audio-Reasoning-Fähigkeiten, übertrifft Gemini 2.5 Pro und erreicht eine mit dem state-of-the-art Gemini 3 Pro vergleichbare Leistung in umfassenden Audio-Verständnis- und Reasoning-Benchmarks, die Sprache, Umgebungsgeräusche und Musik abdecken. Diese Ergebnisse demonstrieren, dass Reasoning eine übertragbare Fähigkeit über Modalitäten hinweg ist, wenn sie angemessen verankert wird, und verwandelt erweiterte Deliberation von einem Nachteil in einen mächtigen Vorteil für Audio-Intelligenz. Durch die Etablierung des ersten erfolgreichen Audio-Reasoning-Modells eröffnet Step-Audio-R1 neue Wege für den Aufbau wahrhaft multimodaler Reasoning-Systeme, die tiefgründig über alle sensorischen Modalitäten hinweg denken.
Trotz bemerkenswerter Fortschritte weisen multimodale Basismodelle immer noch überraschende Defizite in der räumlichen Intelligenz auf. In dieser Arbeit untersuchen wir die Skalierung multimodaler Basismodelle, um räumliche Intelligenz innerhalb der SenseNova-SI-Familie zu entwickeln, die auf etablierten multimodalen Grundlagen aufbaut, einschließlich visueller Verständnismodelle (d.h. Qwen3-VL und InternVL3) sowie vereinheitlichter Verständnis- und Generierungsmodelle (d.h. Bagel). Wir verfolgen einen prinzipienbasierten Ansatz zur Konstruktion hochleistungsfähiger und robuster räumlicher Intelligenz, indem wir systematisch SenseNova-SI-8M kuratieren: acht Millionen diverse Datenbeispiele unter einer rigorosen Taxonomie räumlicher Fähigkeiten. SenseNova-SI demonstriert beispiellose Leistungen über eine breite Palette von Benchmarks für räumliche Intelligenz: 68,7 % auf VSI-Bench, 43,3 % auf MMSI, 85,6 % auf MindCube, 54,6 % auf ViewSpatial und 50,1 % auf SITE, bei gleichzeitig starkem allgemeinem multimodalen Verständnis (z.B. 84,9 % auf MMBench-En). Noch wichtiger ist, dass wir die Auswirkungen der Datenskalierung analysieren, frühe Anzeichen emergenter Generalisierungsfähigkeiten durch diversives Datentraining diskutieren, das Risiko von Overfitting und Sprachabkürzungen analysieren, eine vorläufige Studie zum räumlichen Chain-of-Thought-Schließen vorstellen und das Potenzial downstream-Anwendungen validieren. SenseNova-SI ist ein laufendes Projekt, und dieser Bericht wird kontinuierlich aktualisiert. Alle neu trainierten multimodalen Basismodelle werden öffentlich zugänglich gemacht, um weitere Forschungen in dieser Richtung zu erleichtern.
Jüngste Fortschritte bei generativen Videomodellen, wie Veo-3, haben überraschende Zero-Shot-Fähigkeiten im Bereich des logischen Denkens gezeigt, was einen wachsenden Bedarf an systematischer und zuverlässiger Bewertung schafft. Wir stellen V-ReasonBench vor, einen Benchmark, der entwickelt wurde, um das videobasierte Denken in vier Schlüsseldimensionen zu bewerten: strukturiertes Problemlösen, räumliche Wahrnehmung, musterbasierte Inferenz und physikalische Dynamik. Der Benchmark basiert auf sowohl synthetischen als auch realen Bildsequenzen und bietet eine vielfältige Sammlung von Aufgaben mit überprüfbaren Antworten, die reproduzierbar, skalierbar und eindeutig sind. Die Bewertung von sechs modernsten Videomodellen zeigt deutliche Unterschiede in den einzelnen Dimensionen, mit starken Variationen in strukturiertem, räumlichem, musterbasiertem und physikalischem Denken. Wir vergleichen Videomodelle weiterhin mit leistungsstarken Bildmodellen, analysieren häufige Halluzinationsverhalten und untersuchen, wie die Videodauer das Chain-of-Frames-Denken beeinflusst. Insgesamt bietet V-ReasonBench einen einheitlichen und reproduzierbaren Rahmen zur Messung des videobasierten Denkens und zielt darauf ab, die Entwicklung von Modellen mit zuverlässigeren, menschenähnlichen Denkfähigkeiten zu unterstützen.
Während Sprachmodelle in vielen realen Anwendungen Einfluss erlangt haben, ist die Videogenerierung weitgehend auf den Unterhaltungsbereich beschränkt. Motiviert durch die inhärente Fähigkeit von Videos, physikalische Informationen zu vermitteln, die sich nur schwer durch Sprache allein darstellen lassen (stellen Sie sich vor, jemandem das Binden einer Krawatte nur mit Text beizubringen), identifizieren wir eine ungenutzte Möglichkeit, Video als neue Antwortmodalität für die Next-Event Prediction (NEP) zu erweitern, formalisiert als Video-Next-Event Prediction (VNEP). Während die etablierte NEP-Aufgabe ein Video mit einer prozeduralen oder prädiktiven Frage als Eingabe verwendet, um das nächste Ereignis in Textform vorherzusagen, erfordert VNEP dynamische Videoantworten. Dieser Wechsel vom "Erzählen" zum "Zeigen" ermöglicht intuitivere und individuellere Antworten für prozedurales Lernen und kreative Exploration. Diese Aufgabe bleibt jedoch für bestehende Modelle eine Herausforderung, da sie ein Verständnis multimodaler Eingaben, instruktionsbedingtes Reasoning und die Generierung von Videos mit visueller und semantischer Konsistenz erfordert. Um dies zu adressieren, stellen wir VANS vor, ein Modell, das Verstärkungslernen nutzt, um ein Vision-Language-Model (VLM) mit einem Video-Diffusion-Model (VDM) für VNEP auszurichten. Der Kern von VANS ist unser vorgeschlagenes Joint-GRPO, das das VLM und das VDM so orchestriert, dass sie als Einheit fungieren. Angetrieben durch eine gemeinsame Belohnungsfunktion für ihre jeweiligen Ausgaben, optimiert es das VLM, um Bildbeschreibungen zu erzeugen, die sowohl präzise als auch visualisierungsfreundlich sind, und leitet gleichzeitig das VDM an, Videos zu generieren, die diesen Beschreibungen und dem visuellen Eingabekontext treu bleiben. Um dieses Lernen zu ermöglichen, haben wir VANS-Data-100K erstellt, einen speziellen Datensatz für die VNEP-Aufgabe. Experimente auf prozeduralen und prädiktiven Benchmarks zeigen, dass VANS state-of-the-art Leistung sowohl in der Videobereignisvorhersage als auch in der Visualisierung erzielt. Der Code ist unter https://github.com/KlingTeam/VANS verfügbar.
Das Training einer Familie großer Sprachmodelle, die auf verschiedene Größen und Einsatzziele abzielen, ist extrem kostspielig, da für jede unterschiedliche Größe separate Trainingsläufe erforderlich sind. Jüngste Arbeiten zur Modellkompression durch Pruning und Knowledge Distillation haben diese Kosten gesenkt; dieser Prozess verursacht jedoch immer noch Trainingskosten in Höhe von mehreren hundert Milliarden Tokens pro komprimiertes Modell. In diesem Artikel stellen wir Nemotron Elastic vor, einen Rahmen zum Aufbau reasoning-orientierter LLMs, einschließlich hybrider Mamba-Attention-Architekturen, die mehrere verschachtelte Teilmodelle in einem einzigen übergeordneten Modell integrieren, die jeweils für verschiedene Einsatzszenarien und Budgets optimiert sind. Jedes dieser Teilmodelle teilt sich die Gewichte mit dem übergeordneten Modell und kann während des Einsatzes ohne zusätzliches Training oder Fine-Tuning zero-shot extrahiert werden. Wir ermöglichen diese Funktionalität durch einen end-to-end trainierten Router, der eng an einen zweistufigen Trainingsplan gekoppelt ist, der speziell für Reasoning-Modelle entwickelt wurde. Zusätzlich führen wir eine gruppenbewusste SSM-Elastifizierung ein, die die strukturellen Einschränkungen von Mamba bewahrt, eine heterogene MLP-Elastifizierung, eine normalisierte MSE-basierte Schichtpriorität für verbesserte Tiefenauswahl und Knowledge Distillation, die gleichzeitige Multi-Budget-Optimierung ermöglicht. Wir wenden Nemotron Elastic auf das Nemotron Nano V2 12B-Modell an und erzeugen gleichzeitig ein 9B- und ein 6B-Modell mit nur 110B Trainingstokens; dies führt zu einer Kostenreduzierung von über 360x im Vergleich zum Training von Modellfamilien von Grund auf und etwa 7x im Vergleich zu State-of-the-Art-Kompressionstechniken. Jedes der verschachtelten Modelle erreicht eine gleichwertige oder bessere Genauigkeit als der State-of-the-Art. Darüber hinaus ermöglicht die verschachtelte Fähigkeit unseres Ansatzes – im Gegensatz zu anderen Kompressionsmethoden – ein Viel-in-Einem-Reasoning-Modell, das einen konstanten Bereitstellungsspeicherbedarf in Bezug auf die Anzahl der Modelle in der Familie aufweist.
Wir veröffentlichen MiMo-Embodied als Open Source, das erste übergreifende Foundation-Modell für verkörpertes Lernen, das erfolgreich autonomes Fahren und verkörpertes KI integriert und Spitzenleistung erzielt. MiMo-Embodied stellt neue Rekorde in 17 Benchmarks für verkörperte KI in den Bereichen Aufgabenplanung, Affordance-Vorhersage und räumlichem Verständnis auf und übertrifft gleichzeitig in 12 Benchmarks für autonomes Fahren in den Kategorien Umgebungswahrnehmung, Statusvorhersage und Fahrplanung. In all diesen Aufgaben übertrifft MiMo-Embodied bestehende Open-Source-, Closed-Source- und spezialisierte Baseline-Modelle signifikant. Unsere Ergebnisse zeigen, dass diese beiden Domänen durch mehrstufiges Lernen, kuratierte Datenerstellung sowie CoT/RL-Finetuning eine starke positive Übertragung aufweisen und sich gegenseitig verstärken. Wir bieten eine detaillierte Analyse unserer Modellarchitektur und Trainingsmethoden zur Förderung weiterer Forschung. Code und Modelle sind unter https://github.com/XiaomiMiMo/MiMo-Embodied verfügbar.
Vision-Language-Action (VLA)-Modelle zeichnen sich bei der robotischen Manipulation aus, sind jedoch durch ihre starke Abhängigkeit von Experten-Demonstrationen eingeschränkt, was zu Verzerrungen durch die Demonstrationen führt und die Leistung begrenzt. Reinforcement Learning (RL) ist eine wichtige Nachtrainingsstrategie, um diese Grenzen zu überwinden, doch aktuelle VLA-RL-Methoden, einschließlich gruppenbasierter Optimierungsansätze, werden durch stark spärliche Belohnungssignale behindert. Die Abhängigkeit von binären Erfolgsindikatoren verschwendet wertvolle Informationen in gescheiterten Trajektorien, was zu geringer Trainingseffizienz führt. Um dieses Problem zu lösen, schlagen wir Self-Referential Policy Optimization (SRPO) vor, ein neuartiges VLA-RL-Framework. SRPO eliminiert den Bedarf an externen Demonstrationen oder manueller Belohnungsmodellierung, indem es die eigenen erfolgreichen Trajektorien des Modells, die im aktuellen Trainingsbatch generiert werden, als Selbstreferenz nutzt. Dies ermöglicht es uns, gescheiterten Versuchen eine fortschrittsabhängige Belohnung zuzuweisen. Eine zentrale Innovation ist die Verwendung latenter Weltrepräsentationen, um das Verhaltensfortschritt robust zu messen. Anstatt auf Rohpixel angewiesen zu sein oder domainspezifisches Fine-Tuning zu erfordern, nutzen wir die komprimierten, übertragbaren Kodierungen aus dem latenten Raum eines Weltmodells. Diese Repräsentationen erfassen natürlicherweise Fortschrittsmuster über verschiedene Umgebungen hinweg und ermöglichen so einen genauen, generalisierten Trajektorienvergleich. Empirische Auswertungen auf dem LIBERO-Benchmark demonstrieren die Effizienz und Wirksamkeit von SRPO. Ausgehend von einer überwachten Baseline mit 48,9 % Erfolgsrate erreicht SRPO in nur 200 RL-Schritten eine neue state-of-the-art Erfolgsrate von 99,2 %, was einer relativen Verbesserung von 103 % ohne jegliche zusätzliche Überwachung entspricht. Darüber hinaus zeigt SRPO eine beträchtliche Robustheit und erzielt eine Leistungssteigerung von 167 % auf dem LIBERO-Plus-Benchmark.
Krankenhäuser und Gesundheitssysteme sind auf operative Entscheidungen angewiesen, die den Patientenfluss, die Kosten und die Qualität der Versorgung bestimmen. Obwohl Foundation-Modelle, die auf allgemeinen Texten trainiert wurden, bei medizinischem Wissen und Konversations-Benchmarks gute Leistungen erbringen, mangelt es ihnen möglicherweise an dem spezialisierten Wissen, das für diese operativen Entscheidungen erforderlich ist. Wir stellen Lang1 vor, eine Familie von Modellen (100M-7B Parameter), die auf einem spezialisierten Korpus vortrainiert wurden, der 80B klinische Tokens aus den elektronischen Gesundheitsakten (EHR) des NYU Langone Health und 627B Tokens aus dem Internet kombiniert. Um Lang1 unter realen Bedingungen rigoros zu evaluieren, entwickelten wir den Realistic Medical Evaluation (ReMedE), einen Benchmark, der auf 668.331 EHR-Notizen basiert und fünf kritische Aufgaben bewertet: Vorhersage der Wiederaufnahme innerhalb von 30 Tagen, Vorhersage der 30-Tage-Mortalität, Verweildauer, Kodierung von Komorbiditäten und Vorhersage von Ablehnungen von Versicherungsansprüchen. In Zero-Shot-Szenarien schneiden sowohl allgemeine als auch spezialisierte Modelle bei vier von fünf Aufgaben schlecht ab (36,6 %-71,7 % AUROC), mit Ausnahme der Mortalitätsvorhersage. Nach dem Finetuning übertrifft Lang1-1B finetunierte Generalisten-Modelle, die bis zu 70x größer sind, und Zero-Shot-Modelle, die bis zu 671x größer sind, und verbessert den AUROC um 3,64 %-6,75 % bzw. 1,66 %-23,66 %. Wir beobachteten auch Skalierungseffekte über Aufgaben hinweg, wobei gemeinsames Finetuning auf mehreren Aufgaben zu Verbesserungen bei anderen Aufgaben führte. Lang1-1B überträgt sich effektiv auf Out-of-Distribution-Szenarien, einschließlich anderer klinischer Aufgaben und eines externen Gesundheitssystems. Unsere Ergebnisse deuten darauf hin, dass prädiktive Fähigkeiten für Krankenhausoperationen explizites überwachtes Finetuning erfordern und dass dieser Finetuning-Prozess durch domänenspezifisches Vortraining auf EHR-Daten effizienter wird. Unsere Ergebnisse unterstützen die aufkommende Ansicht, dass spezialisierte LLMs bei spezialisierten Aufgaben mit Generalisten-Modellen konkurrieren können, und zeigen, dass eine effektive KI für Gesundheitssysteme die Kombination aus domänenspezifischem Vortraining, überwachtem Finetuning und realer Evaluation über Stellvertreter-Benchmarks hinaus erfordert.
Neuronale Information-Retrieval-Systeme zeichnen sich in hochressourcenstarken Sprachen aus, sind jedoch für morphologisch reiche, ressourcenärmere Sprachen wie Türkisch noch unzureichend erforscht. Dichte Bi-Encoder dominieren derzeit das türkische IR, doch Late-Interaction-Modelle – die Token-Level-Repräsentationen für feinkörniges Matching beibehalten – wurden nicht systematisch evaluiert. Wir stellen TurkColBERT vor, den ersten umfassenden Benchmark, der dichte Encoder und Late-Interaction-Modelle für den türkischen Retrieval vergleicht. Unser zweistufiges Adaptions-Pipeline feintuned englische und multilinguale Encoder auf türkischen NLI/STS-Aufgaben und wandelt sie anschließend mittels PyLate, trainiert auf MS MARCO-TR, in ColBERT-artige Retriever um. Wir evaluieren 10 Modelle auf fünf türkischen BEIR-Datensätzen, die wissenschaftliche, finanzielle und argumentative Domänen abdecken. Die Ergebnisse zeigen eine hohe Parameter-Effizienz: Der colbert-hash-nano-tr mit 1,0 Mio. Parametern ist 600-mal kleiner als der dichte Encoder turkish-e5-large (600 Mio. Parameter), bewahrt jedoch über 71 % seines durchschnittlichen mAP. Late-Interaction-Modelle, die 3–5 mal kleiner sind als dichte Encoder, übertreffen diese signifikant; ColmmBERT-base-TR erzielt bis zu +13,8 % mAP in domänenspezifischen Aufgaben. Für Produktionstauglichkeit vergleichen wir Indexierungsalgorithmen: MUVERA+Rerank ist 3,33-mal schneller als PLAID und bietet einen relativen mAP-Zuwachs von +1,7 %. Dies ermöglicht Retrieval mit niedriger Latenz, wobei ColmmBERT-base-TR unter MUVERA Abfragezeiten von 0,54 ms erreicht. Wir veröffentlichen alle Checkpoints, Konfigurationen und Evaluierungsskripte. Einschränkungen umfassen die Abhängigkeit von mittelgroßen Datensätzen (≤50.000 Dokumente) und übersetzten Benchmarks, die reale türkische Retrieval-Bedingungen möglicherweise nicht vollständig abbilden; größer angelegte MUVERA-Evaluationen bleiben notwendig.
Wir stellen NaTex vor, einen nativen Texturgenerierungsansatz, der Texturfarben direkt im 3D-Raum vorhersagt. Im Gegensatz zu früheren Methoden, die auf das Backen von 2D-Multi-View-Bildern angewiesen sind, die durch geometrie-konditionierte Multi-View-Diffusionsmodelle (MVDs) synthetisiert werden, vermeidet NaTex mehrere inhärente Einschränkungen der MVD-Pipeline. Dazu gehören Schwierigkeiten bei der Behandlung verdeckter Bereiche, die eine Inpainting erfordern, die Erzielung einer präzisen Mesh-Textur-Ausrichtung entlang von Grenzen sowie die Wahrung der konsistenten und kohärenten Darstellung über alle Ansichten hinweg sowohl inhaltlich als auch in der Farbintensität. NaTex zeichnet sich durch ein neuartiges Paradigma aus, das die genannten Probleme adressiert, indem Textur als eine dichte Farbpunktwolke betrachtet wird. Aufbauend auf dieser Idee schlagen wir latente Farbdiffusion vor, die einen geometrie-bewussten Farbpunktwolken-VAE und einen Multi-Control-Diffusion-Transformer (DiT) umfasst, die vollständig von Grund auf mit 3D-Daten für Texturrekonstruktion und -generierung trainiert werden. Um eine präzise Ausrichtung zu ermöglichen, führen wir eine native Geometrie-Steuerung ein, die den DiT über Positions-Einbettungen und geometrische Latents auf direkte 3D-Rauminformationen konditioniert. Wir entwickeln die VAE-DiT-Architektur gemeinsam, wobei die geometrischen Latents über einen dedizierten, eng mit dem Farb-VAE gekoppelten Geometrie-Zweig extrahiert werden. Dies liefert eine feinkörnige Oberflächenführung, die eine starke Korrespondenz mit der Textur beibehält. Durch diese Konzepte zeigt NaTex eine hohe Leistungsfähigkeit und übertrifft bisherige Methoden deutlich in Texturkohärenz und -ausrichtung. Darüber hinaus weist NaTex auch starke Generalisierungsfähigkeiten auf, entweder trainingsfrei oder mit einfacher Anpassung, für verschiedene Downstream-Anwendungen, wie z.B. Materialgenerierung, Texturverfeinerung sowie Teilsegmentierung und -texturierung.
Jüngste Fortschritte in der visuellen Generierung untersuchen zunehmend die Integration von Reasoning-Fähigkeiten. Bisherige Ansätze nutzen textuelles Reasoning – sogenanntes "Denken" – entweder vor (als Vorplanung) oder nach (als Nachverfeinerung) dem Generierungsprozess, doch es fehlt an multimodaler Interaktion in Echtzeit während der Erzeugung selbst. In dieser Vorstudie stellen wir Thinking-while-Generating (TwiG) vor, das erste verzahnte Framework, das textuelles Reasoning und visuelle Generierung simultan koevolvieren lässt. Während visuelle Inhalte schrittweise erzeugt werden, wird textuelles Reasoning eingebettet, um sowohl kommende Bildregionen zu steuern als auch bereits synthetisierte zu reflektieren. Dieses dynamische Wechselspiel erzeugt kontextbewusstere und semantisch reichhaltigere visuelle Ergebnisse. Um das Potenzial dieses Frameworks auszuloten, untersuchen wir drei Strategien: Zero-Shot-Prompting, überwachtes Feintuning (SFT) auf unserem kuratierten TwiG-50K-Datensatz sowie Verstärkendes Lernen (RL) via einer maßgeschneiderten TwiG-GRPO-Strategie, die jeweils einzigartige Einblicke in die Dynamik verzahnten Reasonings bieten. Wir hoffen, dass diese Arbeit weitere Forschung zur Verzahnung von textuellem Reasoning für verbesserte visuelle Generierung anregt. Code wird verfügbar sein unter: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Wir stellen TimeViper vor, ein hybrides Vision-Language-Modell, das entwickelt wurde, um die Herausforderungen des Verstehens langer Videos zu bewältigen. Die Verarbeitung langer Videos erfordert sowohl eine effiziente Modellarchitektur als auch einen effektiven Mechanismus zur Handhabung erweiterter zeitlicher Kontexte. Zu diesem Zweck verwendet TimeViper ein hybrides Mamba-Transformer-Backbone, das die Effizienz von State-Space-Modellen mit der Ausdrucksstärke von Aufmerksamkeitsmechanismen kombiniert. Durch dieses hybride Design zeigen wir das Phänomen der Informationsaggregation von Vision- zu Text-Tokens auf, bei dem Informationen mit zunehmender LLM-Tiefe fortschreitend von Vision-Tokens zu Text-Tokens fließen, was zu einer erheblichen Redundanz der Vision-Tokens führt. Aufbauend auf dieser Beobachtung schlagen wir TransV vor, ein Modul zum Transfer von Token-Informationen, das Vision-Tokens unter Beibehaltung multimodaler Verstehensfähigkeiten in Instruktions-Tokens überträgt und komprimiert. Dieses Design ermöglicht es TimeViper, stundenlange Videos mit über 10.000 Einzelbildern zu verarbeiten. Umfangreiche Experimente in mehreren Benchmarks zeigen, dass TimeViper mit state-of-the-art Modellen konkurrieren kann und dabei die Anzahl der verarbeitbaren Einzelbilder erheblich erweitert. Wir analysieren weiterhin die Aufmerksamkeitsmechanismen sowohl von Mamba- als auch von Transformer-Schichten und bieten neue Einblicke in die Interpretierbarkeit hybrider Modelle. Diese Arbeit stellt einen ersten Schritt in Richtung Entwicklung, Interpretation und Kompression hybrider Mamba-Transformer-Architekturen dar.
UV-Unwrapping glättet 3D-Oberflächen mit minimaler Verzerrung zu 2D-Flächen, was häufig die Zerlegung der komplexen Oberfläche in mehrere Charts erfordert. Obwohl intensiv erforscht, haben bestehende UV-Unwrapping-Methoden häufig Schwierigkeiten mit KI-generierten Gitternetzen, die typischerweise verrauscht, uneben und schlecht konditioniert sind. Diese Methoden erzeugen oft stark fragmentierte Charts und suboptimale Grenzen, was Artefakte verursacht und nachgelagerte Aufgaben behindert. Wir stellen PartUV vor, einen teilbasierten UV-Unwrapping-Prozess, der deutlich weniger, an Teilen ausgerichtete Charts erzeugt und dabei eine geringe Verzerrung beibehält. Aufbauend auf einer recenten lernbasierten Methodik zur Teilzerlegung (PartField) kombiniert PartUV hochlevelige semantische Teilzerlegung mit neuartigen geometrischen Heuristiken in einem top-down-rekursiven Framework. Es stellt sicher, dass die Verzerrung jedes Charts unter einem benutzerdefinierten Schwellenwert bleibt, während die Gesamtanzahl der Charts minimiert wird. Die Pipeline integriert und erweitert Parametrisierungs- und Packungsalgorithmen, beinhaltet eine spezielle Behandlung nicht-manifolder und degenerierter Gitter und ist umfassend parallelisiert für Effizienz. Ausgewertet über vier diverse Datensätze – including menschengemachte Objekte, CAD-, KI-generierte und Common Shapes – übertrifft PartUV bestehende Tools und recente neuronale Methoden in Chart-Anzahl und Nahtlänge, erreicht vergleichbare Verzerrung, zeigt hohe Erfolgsraten bei anspruchsvollen Gitternetzen und ermöglicht neue Anwendungen wie teil-spezifisches Multi-Tiles-Packing. Unsere Projektseite ist unter https://www.zhaoningwang.com/PartUV zu finden.
Die Segmentierung von chirurgischen Videos ist entscheidend für computerassistierte Operationen, da sie eine präzise Lokalisierung und Verfolgung von Instrumenten und Gewebe ermöglicht. Interaktive Videoobjektsegmentierungsmodelle (iVOS) wie Segment Anything Model 2 (SAM2) bieten eine promptbasierte Flexibilität, die über Methoden mit vordefinierten Kategorien hinausgeht, stehen jedoch in chirurgischen Szenarien vor Herausforderungen aufgrund der Domänenlücke und eingeschränkter Langzeitverfolgung. Um diese Einschränkungen zu adressieren, erstellen wir SA-SV, den größten chirurgischen iVOS-Benchmark mit instanzenbasierten raumzeitlichen Annotationen (Masklets), der acht Verfahrenstypen umfasst (61k Frames, 1.6k Masklets), und ermöglichen so eine umfassende Entwicklung und Evaluation für Langzeitverfolgung und Zero-Shot-Generalisierung. Aufbauend auf SA-SV schlagen wir SAM2S vor, ein Foundation-Modell, das SAM2 für chirurgische iVOS erweitert durch: (1) DiveMem, einen trainierbaren Mechanismus für diversen Speicher zur robusten Langzeitverfolgung; (2) temporales semantisches Lernen zum Verständnis von Instrumenten; und (3) ambiguitätsresistentes Lernen zur Minderung von Annotationinkonsistenzen in multiquelligen Datensätzen. Umfangreiche Experimente zeigen, dass Fine-Tuning auf SA-SV substantiale Leistungssteigerungen ermöglicht, wobei SAM2 im Durchschnitt um 12,99 J\&F gegenüber dem Standard-SAM2 verbessert wird. SAM2S steigert die Leistung weiter auf 80,42 durchschnittliches J\&F, übertrifft damit Standard- und fine-getunetes SAM2 um 17,10 bzw. 4,11 Punkte, bei gleichzeitiger Aufrechterhaltung von Echtzeit-Inferenz mit 68 FPS und starker Zero-Shot-Generalisierung. Code und Datensatz werden unter https://jinlab-imvr.github.io/SAM2S veröffentlicht.
Langzeittraining großer Sprachmodelle (LLMs) erfordert die Aufrechterhaltung einer stabilen Exploration, um zu verhindern, dass das Modell in suboptimale Verhaltensweisen kollabiert. Entropie spielt in diesem Kontext eine entscheidende Rolle, da sie die Exploration steuert und hilft, eine vorzeitige Konvergenz zu suboptimalen Lösungen zu vermeiden. Bestehende Reinforcement-Learning-Methoden haben jedoch Schwierigkeiten, ein angemessenes Entropieniveau aufrechtzuerhalten, da der Trainingsprozess eine Mischung aus positiven und negativen Beispielen umfasst, die sich in unterschiedlicher Weise auf die Entropie über die Trainingsschritte hinweg auswirken. Um dieses Problem zu lösen, schlagen wir Entropiestabilisierung durch Proportional-Integral-Regelung (EntroPIC) vor, eine neuartige Methode, die den Einfluss positiver und negativer Beispiele durch dynamische Anpassung ihrer Verlustkoeffizienten adaptiv reguliert. Dieser Ansatz stabilisiert die Entropie während des gesamten Trainings und gewährleistet so effiziente Exploration und stetige Fortschritte. Wir liefern eine umfassende theoretische Analyse für On-Policy- und Off-Policy-Lernsettings und zeigen, dass EntroPIC effektiv zur Entropiesteuerung im großskaligen LLM-Training geeignet ist. Experimentelle Ergebnisse belegen, dass unsere Methode erfolgreich die gewünschten Entropieniveaus aufrechterhält und stabiles sowie optimales RL-Training für LLMs ermöglicht.
Transformer-basierte Architekturen werden in sequenziellen Empfehlungssystemen häufig eingesetzt, doch ihre Anwendung im Finanzdienstleistungssektor (FS) stellt für Echtzeit-Empfehlungen besondere praktische und modellierungstechnische Herausforderungen dar. Dazu gehören: a) langfristige Nutzerinteraktionen (implizit und explizit), die sich über digitale und physische Kanäle erstrecken und einen zeitlich heterogenen Kontext erzeugen, b) das Vorhandensein mehrerer miteinander verbundener Produkte, die koordinierte Modelle erfordern, um verschiedene Werbeplatzierungen und personalisierte Feeds zu unterstützen und gleichzeitig konkurrierende Geschäftsziele abzuwägen. Wir stellen FinTRec vor, ein transformer-basiertes Framework, das diese Herausforderungen und seine betrieblichen Ziele im FS-Bereich adressiert. Während baumbasierte Modelle traditionell im FS-Sektor aufgrund ihrer Erklärbarkeit und Übereinstimmung mit regulatorischen Anforderungen bevorzugt wurden, zeigt unsere Studie, dass FinTRec eine praktikable und effektive Alternative hin zu transformer-basierten Architekturen darstellt. Durch historische Simulationen und Korrelationen aus Live-A/B-Tests zeigen wir, dass FinTRec durchgängig die produktionsreife, baumbasierte Baseline übertrifft. Die vereinheitlichte Architektur ermöglicht bei Feinabstimmung für die Produktanpassung eine übergreifende Signalweitergabe zwischen Produkten, reduziert Trainingskosten und technische Schulden und verbessert gleichzeitig die Offline-Leistung über alle Produkte hinweg. Unseres Wissens ist dies die erste umfassende Studie zur vereinheitlichten sequenziellen Empfehlungsmodellierung im FS-Bereich, die sowohl technische als auch geschäftliche Erwägungen adressiert.
Die Linear-Probe-Transfergenauigkeit auf ImageNet-1K bleibt der Standard-Proxy für die Qualität visueller Repräsentationen, sagt jedoch keine Leistung auf wissenschaftlichen Bilddaten mehr voraus. Über 46 moderne Vision-Model-Checkpoints hinweg erklärt die ImageNet-Top-1-Genauigkeit nur 34 % der Varianz bei ökologischen Aufgaben und stuft 30 % der Modelle oberhalb von 75 % Genauigkeit falsch ein. Wir stellen BioBench vor, einen offenen ökologischen Vision-Benchmark, der erfasst, was ImageNet verpasst. BioBench vereint 9 öffentlich verfügbare, anwendungsgetriebene Aufgaben, 4 taxonomische Reiche und 6 Erfassungsmodalitäten (Drohnen-RGB, Webvideos, Mikroaufnahmen, In-situ- und Sammlungsfotos, Kamerafallen-Bilder) mit insgesamt 3,1 Mio. Bildern. Eine einzige Python-API lädt Daten, trainiert schlanke Klassifikatoren auf eingefrorenen Backbones und meldet klassengewichtete Makro-F1 (plus Domänenmetriken für FishNet und FungiCLEF); ViT-L-Modelle lassen sich in 6 Stunden auf einer A6000-GPU evaluieren. BioBench liefert neues Signal für Computer Vision in der Ökologie und eine Rezeptvorlage für den Aufbau zuverlässiger KI-für-die-Wissenschaft-Benchmarks in beliebigen Domänen. Code und Vorhersagen sind unter https://github.com/samuelstevens/biobench verfügbar, Ergebnisse unter https://samuelstevens.me/biobench.
Während neuere Large Vision-Language Models (LVLMs) starke multimodale Fähigkeiten zeigen, erzeugen sie oft unbegründete oder halluzinierte Antworten, da sie sich zu stark auf linguistische A-priori-Informationen anstatt auf visuelle Evidenz stützen. Diese Einschränkung unterstreicht das Fehlen eines quantitativen Maßes dafür, wie viel diese Modelle tatsächlich visuelle Informationen während des Schlussfolgerns nutzen. Wir schlagen Draft and Refine (DnR) vor, ein Agenten-Framework, das von einer fragengesteuerten Nutzungsmetrik angetrieben wird. Die Metrik quantifiziert die Abhängigkeit des Modells von visuellen Beweisen, indem zunächst eine abfragebedingte Relevanzkarte zur Lokalisierung fragenspezifischer Hinweise erstellt und dann die Abhängigkeit durch relevanzgesteuerte probabilistische Maskierung gemessen wird. Gesteuert durch diese Metrik verfeinert der DnR-Agent seinen initialen Entwurf mittels gezieltem Feedback externer visueller Experten. Die Ausgabe jedes Experten (wie z.B. Bounding-Boxen oder Masken) wird als visuelle Hinweise auf dem Bild dargestellt, und das Modell wird erneut abgefragt, um die Antwort auszuwählen, die die größte Verbesserung der Nutzungsmetrik erzielt. Dieser Prozess stärkt die visuelle Verankerung ohne Neutraining oder Architekturanpassungen. Experimente mit VQA- und Bildbeschreibungs-Benchmarks zeigen konsistente Genauigkeitsgewinne und reduzierte Halluzinationen, was demonstriert, dass die Messung der visuellen Nutzung einen prinzipiellen Weg zu interpretierbareren und evidenzbasierten multimodalen Agentensystemen ebnet.
Jüngste Fortschritte beim Bild-Text-Pretraining haben das visuelle Verständnis durch die Abstimmung visueller und textueller Repräsentationen erheblich verbessert. Contrastive Language-Image Pretraining (CLIP) hat eine zentrale Rolle im multimodalen Lernen gespielt. Allerdings schränkt sein Fokus auf Einzel-Label- und Einzel-Granularitäts-Abgleich seine Wirksamkeit in komplexen Domänen wie der medizinischen Bildgebung ein, wo Bilder oft mehreren High-Level-Labels (z.B. Krankheitskategorien) über verschiedene Annotationsgranularitäten hinweg entsprechen (z.B. diagnostische Beschreibung, klinische Erklärung). Um dies zu adressieren, schlagen wir Multi-Granular Language Learning (MGLL) vor, ein kontrastives Lernframework, das entwickelt wurde, um sowohl Multi-Label- als auch Cross-Granularitäts-Abgleich zu verbessern. MGLL nutzt strukturierte Multi-Label-Supervision, integriert textuelle Beschreibungen über Granularitäten hinweg und führt Soft-Label-Supervision mit punktweisen Constraints ein, um die Abstimmung zu verbessern. MGLL verwendet eine geglättete Kullback-Leibler (KL)-Divergenz, um Cross-Granularitäts-Konsistenz zu gewährleisten und dabei recheneffizient als Plug-and-Play-Modul für Vision-Language-Modelle zu bleiben. Auf unseren konstruierten groß angelegten Multi-Granularitäts-Datensätzen vortrainiert und über mehrere Datensätze hinweg evaluiert, übertrifft MGLL andere state-of-the-art-Methoden in nachgelagerten Aufgaben. Der Code ist verfügbar unter https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.