papers.description
Dieser Bericht stellt Kandinsky 5.0 vor, eine Familie von hochmodernen Foundation-Modellen für die Synthese hochauflösender Bilder und 10-sekündiger Videos. Das Framework umfasst drei zentrale Modellreihen: Kandinsky 5.0 Image Lite – eine Reihe von Bildgenerierungsmodellen mit 6 Milliarden Parametern, Kandinsky 5.0 Video Lite – schnelle und leichtgewichtige Text-zu-Video- und Bild-zu-Video-Modelle mit 2 Milliarden Parametern, und Kandinsky 5.0 Video Pro – Modelle mit 19 Milliarden Parametern, die eine überragende Videogenerierungsqualität erreichen. Wir bieten eine umfassende Übersicht über den Lebenszyklus der Datenkuratierung – einschließlich Sammlung, Verarbeitung, Filterung und Clustering – für die mehrstufige Trainingspipeline, die umfangreiches Pre-Training umfasst und qualitätssteigernde Techniken wie selbstüberwachtes Fein-Tuning (SFT) und verstärkungsbasiertes Post-Training (RL) integriert. Darüber hinaus präsentieren wir neuartige architektonische, Trainings- und Inferenzoptimierungen, die es Kandinsky 5.0 ermöglichen, hohe Generierungsgeschwindigkeiten und Spitzenleistungen in verschiedenen Aufgaben zu erreichen, wie durch menschliche Bewertungen demonstriert wird. Als groß angelegtes, öffentlich verfügbares generatives Framework nutzt Kandinsky 5.0 das volle Potenzial seines Pre-Trainings und der nachfolgenden Phasen, um für eine breite Palette generativer Anwendungen adaptiert zu werden. Wir hoffen, dass dieser Bericht zusammen mit der Veröffentlichung unseres Open-Source-Codes und der Trainings-Checkpoints die Entwicklung und Zugänglichkeit hochwertiger generativer Modelle für die Forschungsgemeinschaft erheblich vorantreiben wird.
Videomodelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Videos mit kohärenter Bewegungsdynamik erzielt. Analog zur Entwicklung von der Texterzeugung zum textbasierten Schlussfolgern im Sprachmodellierung motiviert uns die Entwicklung von Videomodellen zu der Frage: Können Videomodelle durch Videogenerierung schlussfolgern? Im Vergleich zu diskreten Textkorpora verankert Video das Schlussfolgern in expliziten räumlichen Anordnungen und zeitlicher Kontinuität, was es zu einem idealen Substrat für räumliches Reasoning macht. In dieser Arbeit untersuchen wir das Paradigma des Schließens per Video und stellen VR-Bench vor – einen umfassenden Benchmark, der entwickelt wurde, um die Reasoning-Fähigkeiten von Videomodellen systematisch zu evaluieren. Basierend auf Labyrinth-Lösungsaufgaben, die inhärent räumliche Planung und mehrstufiges Schlussfolgern erfordern, enthält VR-Bench 7.920 prozedural generierte Videos über fünf Labyrinth-Typen und diverse visuelle Stile hinweg. Unsere empirische Analyse zeigt, dass SFT (Supervised Fine-Tuning) die Reasoning-Fähigkeit von Videomodellen effizient hervorrufen kann. Videomodelle zeigen während des Reasoning eine stärkere räumliche Wahrnehmung, übertreffen führende VLMs (Vision-Language Models) und generalisieren gut über verschiedene Szenarien, Aufgaben und Komplexitätsgrade hinweg. Wir entdecken weiterhin einen Test-Time-Scaling-Effekt, bei dem diversives Sampling während der Inferenz die Zuverlässigkeit des Reasoning um 10–20 % verbessert. Diese Ergebnisse unterstreichen das einzigartige Potenzial und die Skalierbarkeit des Schließens per Video für räumliche Reasoning-Aufgaben.
KI-Forschungsagenten versprechen, wissenschaftliche Fortschritte zu beschleunigen, indem sie das Design, die Implementierung und das Training von Machine-Learning-Modellen automatisieren. Allerdings befindet sich das Feld noch in den Kinderschuhen, und die Schlüsselfaktoren, die den Erfolg oder Misserfolg von Agentenverläufen bestimmen, sind nicht vollständig verstanden. Wir untersuchen die Rolle, die die Ideenvielfalt für die Leistung von Agenten spielt. Zunächst analysieren wir Agentenverläufe auf MLE-Bench, einem bekannten Benchmark zur Bewertung von KI-Forschungsagenten, über verschiedene Modelle und Agenten-Scaffolds hinweg. Unsere Analyse zeigt, dass verschiedene Modelle und Agenten-Scaffolds unterschiedliche Grade an Ideenvielfalt hervorbringen und dass leistungsstärkere Agenten tendenziell eine erhöhte Ideenvielfalt aufweisen. Des Weiteren führen wir ein kontrolliertes Experiment durch, bei dem wir den Grad der Ideenvielfalt variieren, und demonstrieren, dass eine höhere Ideenvielfalt zu einer besseren Leistung führt. Abschließend untermauern wir unsere Ergebnisse, indem wir zusätzliche Bewertungsmetriken jenseits der standardmäßigen medaillenbasierten Bewertung von MLE-Bench untersuchen und zeigen, dass unsere Erkenntnisse auch für andere Leistungsmetriken von Agenten Bestand haben.
Reinforcement Learning (RL) bietet einen prinzipienbasierten Rahmen, um Vision-Language-Modelle (VLMs) bei komplexen Reasoning-Aufgaben zu verbessern. Bisherige RL-Ansätze sind jedoch oft auf von Menschen annotierte Labels oder aufgabenspezifische Heuristiken angewiesen, um überprüfbare Belohnungen zu definieren, was sowohl kostspielig als auch schwer zu skalieren ist. Wir stellen VisPlay vor, einen sich selbst weiterentwickelnden RL-Rahmen, der es VLMs ermöglicht, ihre Reasoning-Fähigkeiten autonom mit großen Mengen ungelabelter Bilddaten zu verbessern. Ausgehend von einem einzigen Basis-VLM weist VisPlay dem Modell zwei interagierende Rollen zu: einen bildbasierten Fragensteller (Image-Conditioned Questioner), der herausfordernde yet beantwortbare visuelle Fragen formuliert, und einen multimodalen Reasoner (Multimodal Reasoner), der silberne Antworten generiert. Diese Rollen werden gemeinsam mit Group Relative Policy Optimization (GRPO) trainiert, das Diversitäts- und Schwierigkeitsbelohnungen integriert, um die Komplexität der generierten Fragen mit der Qualität der silbernen Antworten auszugleichen. VisPlay skaliert effizient über zwei Modellfamilien hinweg. Bei Training mit Qwen2.5-VL und MiMo-VL erzielt VisPlay konsistente Verbesserungen im visuellen Reasoning, in der kompositionellen Generalisierung und bei der Reduzierung von Halluzinationen über acht Benchmarks hinweg, darunter MM-Vet und MMMU, und demonstriert so einen skalierbaren Weg hin zu einer sich selbst entwickelnden multimodalen Intelligenz. Die Projektseite ist unter https://bruno686.github.io/VisPlay/ verfügbar.
Die Anwendbarkeit aktueller Läsionssegmentierungsmodelle für Thoraxröntgenaufnahmen (CXRs) war bisher sowohl durch eine geringe Anzahl an Ziel-Labels als auch durch die Abhängigkeit von langen, detaillierten Experten-Textinputs eingeschränkt, was eine Hürde für die praktische Anwendung darstellte. Um diese Einschränkungen zu adressieren, führen wir ein neues Paradigma ein: instruktionsgesteuerte Läsionssegmentierung (ILS), die darauf ausgelegt ist, verschiedene Läsionstypen auf Basis einfacher, benutzerfreundlicher Anweisungen zu segmentieren. Im Rahmen dieses Paradigmas erstellen wir MIMIC-ILS, den ersten großangelegten Instruktions-Antwort-Datensatz für die CXR-Läsionssegmentierung, unter Verwendung unserer vollautomatisierten multimodalen Pipeline, die Annotationen aus Thoraxröntgenbildern und deren entsprechenden Berichten generiert. MIMIC-ILS enthält 1,1 Millionen Instruktions-Antwort-Paare, die aus 192.000 Bildern und 91.000 einzigartigen Segmentierungsmasken abgeleitet wurden und sieben Hauptläsionstypen abdecken. Um den Nutzen empirisch zu demonstrieren, stellen wir ROSALIA vor, ein Sprach-Bild-Modell, das auf MIMIC-ILS feinabgestimmt wurde. ROSALIA kann verschiedene Läsionen segmentieren und textuelle Erklärungen als Reaktion auf Benutzeranweisungen liefern. Das Modell erreicht eine hohe Segmentierungs- und Textgenauigkeit in unserer neu vorgeschlagenen Aufgabe, was die Effektivität unserer Pipeline und den Wert von MIMIC-ILS als grundlegende Ressource für die pixelgenaue Lokalisierung von CXR-Läsionen unterstreicht.
Die Verbreitung von stundenlangen Videos (z.B. Vorlesungen, Podcasts, Dokumentationen) hat die Nachfrage nach effizienten Methoden zur Inhaltsstrukturierung verstärkt. Bisherige Ansätze sind jedoch durch Trainingsdaten mit typischerweise kurzen und groben Annotationen eingeschränkt, was die Generalisierbarkeit auf nuancenreiche Übergänge in langen Videos beeinträchtigt. Wir stellen ARC-Chapter vor, das erste großskalige Video-Kapitelungsmodell, das mit über einer Million Kapitelanotationen für lange Videos trainiert wurde und sich durch bilinguale, zeitlich verankerte sowie hierarchische Kapitelannotationen auszeichnet. Um dieses Ziel zu erreichen, haben wir einen bilingualen englisch-chinesischen Kapiteldatensatz durch eine strukturierte Pipeline erstellt, die ASR-Transkripte, Szenentexte und visuelle Beschreibungen zu mehrstufigen Annotationen – von kurzen Titeln bis zu langen Zusammenfassungen – vereint. Wir zeigen deutliche Leistungsverbesserungen durch Skalierung der Datenmenge und Annotationsdichte. Darüber hinaus entwickeln wir eine neue Evaluierungsmetrik namens GRACE, die Many-to-One-Segmentüberlappungen und semantische Ähnlichkeit einbezieht und damit die Flexibilität realer Kapitelungsszenarien besser abbildet. Umfangreiche Experimente belegen, dass ARC-Chapter mit deutlichem Abstand einen neuen State-of-the-Art etabliert und das bisher beste Modell um 14,0 % im F1-Score und 11,3 % im SODA-Score übertrifft. Zudem zeigt ARC-Chapter ausgezeichnete Transferierbarkeit und verbessert den State-of-the-Art bei nachgelagerten Aufgaben wie der dichten Videobeschreibung auf YouCook2.
Wir stellen MHR vor, ein parametrisches menschliches Körpermodell, das das entkoppelte Skelett-/Form-Paradigma von ATLAS mit einem flexiblen, modernen Rig- und Pose-Korrektursystem kombiniert, das von der Momentum-Bibliothek inspiriert ist. Unser Modell ermöglicht ausdrucksstarke, anatomisch plausible menschliche Animationen, unterstützt nichtlineare Pose-Korrekturen und ist für eine robuste Integration in AR/VR- und Grafik-Pipelines konzipiert.
Wir stellen MoS (Mixture of States), ein neuartiges Fusionsparadigma für multimodale Diffusionsmodelle vor, das Modalitäten durch flexible, zustandsbasierte Interaktionen vereint. Der Kern von MoS ist ein lernbarer, tokenweiser Router, der denoisierungs-zeitschritt- und eingabeabhängige Interaktionen zwischen den verborgenen Zuständen der Modalitäten erzeugt und so token-level Merkmale präzise mit der Diffusionsbahn abstimmt. Dieser Router wählt spärlich die Top-k verborgenen Zustände aus und wird mit einer ε-greedy-Strategie trainiert, wodurch kontextuelle Merkmale effizient mit minimalen lernbaren Parametern und vernachlässigbarem Rechenaufwand selektiert werden. Wir validieren unser Design mit Text-zu-Bild-Generierung (MoS-Image) und -Bearbeitung (MoS-Editing), die state-of-the-art Ergebnisse erzielen. Mit nur 3 bis 5 Milliarden Parametern übertreffen oder erreichen unsere Modelle Gegenstücke, die bis zu viermal größer sind. Diese Ergebnisse etablieren MoS als ein flexibles und recheneffizientes Paradigma zur Skalierung multimodaler Diffusionsmodelle.
Mit der Etablierung von verkörpertter Intelligenz als zentrale Forschungsfront in der KI-Forschung müssen Simulationsplattformen über niedrige physikalische Interaktionen hinauswachsen, um komplexe, menschenzentrierte soziale Verhaltensweisen zu erfassen. Wir stellen FreeAskWorld vor, ein interaktives Simulationsframework, das große Sprachmodelle (LLMs) zur Verhaltensplanung auf hoher Ebene und für semantisch fundierte Interaktion integriert, basierend auf Theorien der Intentionalität und sozialen Kognition. Unser Framework unterstützt skalierbare, realistische Mensch-Agenten-Simulationen und beinhaltet eine modulare Datengenerierungspipeline für vielfältige verkörperte Aufgaben. Um das Framework zu validieren, erweitern wir die klassische Vision-and-Language-Navigation (VLN)-Aufgabe zu einer interaktionsangereicherten "Direction Inquiry"-Umgebung, in der Agenten aktiv navigatorische Anweisungen einholen und interpretieren können. Wir präsentieren und veröffentlichen FreeAskWorld, einen groß angelegten Benchmark-Datensatz, der rekonstruierte Umgebungen, sechs verschiedene Aufgabentypen, 16 Kernobjektkategorien, 63.429 annotierte Beispielbilder und über 17 Stunden Interaktionsdaten zur Unterstützung von Training und Evaluation verkörperter KI-Systeme umfasst. Wir evaluieren VLN-Modelle und menschliche Teilnehmer sowohl unter Open-Loop- als auch Closed-Loop-Bedingungen. Experimentelle Ergebnisse zeigen, dass auf FreeAskWorld feinabgestimmte Modelle ihre ursprünglichen Gegenstücke übertreffen und ein verbessertes semantisches Verständnis sowie höhere Interaktionsfähigkeit erreichen. Diese Ergebnisse unterstreichen die Wirksamkeit sozial fundierter Simulationsframeworks für die Weiterentwicklung verkörperter KI-Systeme hin zu anspruchsvollerer Hochlevel-Planung und natürlicherer Mensch-Agenten-Interaktion. Von besonderer Bedeutung ist, dass unsere Arbeit zeigt, dass Interaktion selbst als zusätzliche Informationsmodalität dient.
Dichte Merkmalszuordnung zielt darauf ab, alle Korrespondenzen zwischen zwei Bildern einer 3D-Szene zu schätzen und hat sich aufgrund ihrer hohen Genauigkeit und Robustheit kürzlich als Goldstandard etabliert. Allerdings versagen bestehende dichte Matcher nach wie vor oder schneiden in vielen schwierigen realen Szenarien schlecht ab, und hochpräzise Modelle sind oft langsam, was ihre Anwendbarkeit einschränkt. In diesem Papier gehen wir diese Schwächen auf breiter Front durch eine Reihe systematischer Verbesserungen an, die zusammen ein deutlich besseres Modell ergeben. Insbesondere konstruieren wir eine neuartige Matching-Architektur und -Loss-Funktion, die in Kombination mit einer kuratierten, diversen Trainingsverteilung unserem Modell ermöglicht, viele komplexe Zuordnungsaufgaben zu lösen. Wir beschleunigen das Training weiter durch eine entkoppelte Zwei-Stufen-Pipeline (Matching gefolgt von Verfeinerung) und reduzieren gleichzeitig den Speicherverbrauch während der Verfeinerung erheblich durch einen maßgeschneiderten CUDA-Kernel. Schließlich nutzen wir das kürzlich erschienene Foundation-Modell DINOv3 zusammen mit mehreren anderen Erkenntnissen, um das Modell robuster und unvoreingenommener zu machen. In unserem umfangreichen Experimentensatz zeigen wir, dass der resultierende neuartige Matcher einen neuen State-of-the-art etabliert und deutlich genauer ist als seine Vorgänger. Code ist verfügbar unter https://github.com/Parskatt/romav2
Jüngste Fortschritte bei generativer KI für Musik haben eine bemerkenswerte Klangtreue und stilistische Vielfalt erreicht. Dennoch gelingt es diesen Systemen oft nicht, mit nuancenreichen menschlichen Präferenzen übereinzustimmen, was auf die spezifischen von ihnen verwendeten Verlustfunktionen zurückzuführen ist. Dieses Papier plädiert für die systematische Anwendung von Präferenzabgleichsverfahren auf die Musikerzeugung, um die grundlegende Lücke zwischen computergestützter Optimierung und menschlichem Musikempfinden zu schließen. Unter Bezugnahme auf jüngste Durchbrüche – darunter MusicRLs groß angelegtes Präferenzlernen, Multi-Präferenz-Abgleichsrahmenwerke wie die diffusionsbasierte Präferenzoptimierung in DiffRhythm+ und Inferenzzeit-Optimierungstechniken wie Text2midi-InferAlign – diskutieren wir, wie diese Techniken die einzigartigen Herausforderungen der Musik bewältigen können: zeitliche Kohärenz, harmonische Konsistenz und subjektive Qualitätsbewertung. Wir identifizieren zentrale Forschungsherausforderungen, darunter die Skalierbarkeit für Langform-Kompositionen und die Zuverlässigkeit von Präferenzmodellen. In der Zukunft sehen wir präferenzabgeglichene Musikerzeugung, die transformative Anwendungen in interaktiven Kompositionstools und personalisierten Musikdiensten ermöglicht. Diese Arbeit ruft zu nachhaltiger interdisziplinärer Forschung auf, die Fortschritte im maschinellen Lernen und in der Musiktheorie kombiniert, um KI-Musiksysteme zu schaffen, die wirklich den kreativen und erfahrungsbezogenen Bedürfnissen des Menschen dienen.
Wir stellen Medal S vor, ein medizinisches Segmentierungs-Foundation-Modell, das native räumliche und textuelle Prompts innerhalb eines end-to-end trainierbaren Frameworks unterstützt. Im Gegensatz zu rein textbasierten Methoden ohne räumliches Bewusstsein erreicht Medal S eine kanalweise Ausrichtung zwischen volumetrischen Prompts und Text-Einbettungen, wodurch Ungenauigkeiten durch Auflösungsunterschiede gemildert werden. Durch die Beibehaltung des vollständigen 3D-Kontexts verarbeitet es effizient mehrere Native-Resolution-Masken parallel und verbessert die Multi-Klassen-Segmentierungsleistung. Ein leichtgewichtiges 3D-Faltungsmodul ermöglicht eine präzise Voxelraum-Verfeinerung, die von beiden Prompt-Typen gesteuert wird, und unterstützt bis zu 243 Klassen über CT, MRT, PET, Ultraschall und Mikroskopie im BiomedSegFM-Datensatz. Medal S bietet zwei Prompting-Modi: einen rein textbasierten Modus, bei dem Modellvorhersagen als räumliche Prompts zur Selbstverfeinerung ohne menschliche Eingabe dienen, und einen Hybridmodus, der manuelle Annotationen für mehr Flexibilität einbezieht. Bei der 24-Klassen-Segmentierung reduziert paralleles räumliches Prompting die Inferenzzeit im Vergleich zu sequentiellem Prompting um mehr als 90%. Wir schlagen dynamisches Resampling vor, um das Ziel-Patch-Verhältnis-Ungleichgewicht anzugehen, und erweitern SAT und nnU-Net für Datenaugmentierung. Darüber hinaus entwickeln wir optimierte Textvorverarbeitung, eine zweistufige Inferenzstrategie und Nachverarbeitungstechniken, um Speichereffizienz, Präzision und Inferenzgeschwindigkeit zu verbessern. Im Fünf-Modalitäten-Durchschnitt auf dem Validierungsdatensatz übertrifft Medal S SAT mit einem DSC von 75,44 (vs. 69,83), NSD von 77,34 (vs. 71,06), F1 von 38,24 (vs. 24,88) und DSC TP von 65,46 (vs. 46,97). Medal S erzielt eine hervorragende Leistung, indem es räumliche Präzision mit semantischer textueller Führung in Einklang bringt, und demonstriert überlegene Effizienz und Genauigkeit bei Multi-Klassen-Medizinsegmentierungsaufgaben im Vergleich zu sequentiellen Prompt-basierten Ansätzen. Medal S wird öffentlich unter https://github.com/yinghemedical/Medal-S verfügbar sein.