Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren BlenderFusion, ein generatives visuelles Compositing-Framework, das neue Szenen durch die Neukomposition von Objekten, Kamera und Hintergrund synthetisiert. Es folgt einem Layering-Editing-Compositing-Pipeline: (i) Segmentierung und Konvertierung visueller Eingaben in editierbare 3D-Entitäten (Layering), (ii) Bearbeitung dieser in Blender mit 3D-gestützter Steuerung (Editing) und (iii) Verschmelzung zu einer kohärenten Szene mithilfe eines generativen Compositors (Compositing). Unser generativer Compositor erweitert ein vortrainiertes Diffusionsmodell, um sowohl die ursprüngliche (Quell-) als auch die bearbeitete (Ziel-) Szene parallel zu verarbeiten. Es wird auf Videobildern mit zwei zentralen Trainingsstrategien feinabgestimmt: (i) Quellmaskierung, die flexible Modifikationen wie den Hintergundaustausch ermöglicht; (ii) simuliertes Objekt-Jittering, das eine entkoppelte Steuerung über Objekte und Kamera erleichtert. BlenderFusion übertrifft bisherige Methoden deutlich bei komplexen kompositionellen Szenenbearbeitungsaufgaben.
In diesem Artikel präsentieren wir LLaVA-Scissor, eine trainingsfreie Token-Kompressionsstrategie, die für multimodale Large-Language-Modelle im Videobereich entwickelt wurde. Bisherige Methoden versuchen meist, Token basierend auf Aufmerksamkeitswerten zu komprimieren, scheitern jedoch daran, alle semantischen Regionen effektiv zu erfassen und führen oft zu Token-Redundanz. Im Gegensatz dazu schlagen wir vor, den Ansatz der Semantisch Verbundenen Komponenten (Semantic Connected Components, SCC) zu nutzen, der Token verschiedenen semantischen Regionen innerhalb des Token-Sets zuordnet und so eine umfassende semantische Abdeckung sicherstellt. Das Ergebnis ist eine zweistufige räumlich-zeitliche Token-Kompressionsstrategie, die SCC sowohl im räumlichen als auch im zeitlichen Bereich anwendet. Diese Strategie kann Token effektiv komprimieren, indem das gesamte Video durch eine Menge nicht überlappender semantischer Token repräsentiert wird. Wir führen umfangreiche Bewertungen der Token-Kompressionsfähigkeiten von LLaVA-Scissor über diverse Video-Verständnis-Benchmarks durch, darunter Video-Frage-Antwort-Systeme, Langzeitvideo-Verständnis und umfassende Multiple-Choice-Benchmarks. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene LLaVA-Scissor andere Token-Kompressionsmethoden übertrifft und insbesondere bei niedrigen Token-Retentionsraten eine überlegene Leistung in verschiedenen Video-Verständnis-Benchmarks erzielt. Projektseite: https://github.com/HumanMLLM/LLaVA-Scissor.
Die Erzielung einer feinkörnigen Kontrolle über Subjektidentität und semantische Attribute (Pose, Stil, Beleuchtung) in der Text-zu-Bild-Generierung, insbesondere bei mehreren Subjekten, beeinträchtigt häufig die Bearbeitbarkeit und Kohärenz von Diffusion Transformers (DiTs). Viele Ansätze führen Artefakte ein oder leiden unter Attributverflechtung. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Modell zur kontrollierten Generierung mehrerer Subjekte vor, XVerse. Durch die Umwandlung von Referenzbildern in Offsets für die tokenspezifische Modulation des Textstroms ermöglicht XVerse eine präzise und unabhängige Steuerung spezifischer Subjekte, ohne Bildlatenten oder -merkmale zu stören. Folglich bietet XVerse eine hochwertige, bearbeitbare Synthese von Bildern mit mehreren Subjekten und eine robuste Kontrolle über individuelle Subjektmerkmale und semantische Attribute. Dieser Fortschritt verbessert die Fähigkeiten zur personalisierten und komplexen Szenengenerierung erheblich.
Die Kinematografie, die grundlegende visuelle Sprache des Films, ist entscheidend für die Vermittlung von Handlung, Emotion und ästhetischer Qualität. Obwohl aktuelle Vision-Language-Modelle (VLMs) ein starkes allgemeines visuelles Verständnis demonstrieren, bleibt ihre Fähigkeit, die nuancenreiche filmische Grammatik innerhalb einzelner Einstellungen zu erfassen, weitgehend unerforscht und mangelt es an einer robusten Bewertung. Diese kritische Lücke begrenzt sowohl das fein abgestimmte visuelle Verständnis als auch die Präzision der KI-gestützten Videogenerierung. Um dies zu beheben, führen wir ShotBench ein, einen umfassenden Benchmark, der speziell für das Verständnis der filmischen Sprache entwickelt wurde. Er umfasst über 3.500 von Experten annotierte Frage-Antwort-Paare aus Bildern und Videoclips, die sorgfältig aus über 200 renommierten (vorwiegend Oscar-nominierten) Filmen ausgewählt wurden und acht zentrale Dimensionen der Kinematografie abdecken. Unsere Bewertung von 24 führenden VLMs auf ShotBench offenbart deren erhebliche Einschränkungen: Selbst das leistungsstärkste Modell erreicht eine durchschnittliche Genauigkeit von weniger als 60 %, insbesondere bei fein abgestimmten visuellen Hinweisen und komplexem räumlichem Denken. Um Fortschritte in diesem Bereich voranzutreiben, erstellen wir ShotQA, einen groß angelegten multimodalen Datensatz mit etwa 70.000 filmischen Frage-Antwort-Paaren. Mithilfe von ShotQA entwickeln wir ShotVL durch überwachtes Feinabstimmen und Group Relative Policy Optimization. ShotVL übertrifft alle bestehenden Open-Source- und proprietären Modelle auf ShotBench deutlich und setzt neue Maßstäbe in der Leistungsfähigkeit. Wir stellen unsere Modelle, Daten und Code als Open Source zur Verfügung, um schnelle Fortschritte in diesem entscheidenden Bereich der KI-gestützten filmischen Verständnis- und Generierung zu fördern.
Interne Weltmodelle (WMs) ermöglichen es Agenten, den Zustand der Welt zu verstehen und Übergänge vorherzusagen, was als Grundlage für fortgeschrittenes deliberatives Denken dient. Aktuelle große Vision-Language-Modelle (VLMs) wie OpenAI o3, GPT-4o und Gemini zeigen Potenzial als allgemeine WMs. Während die neuesten Studien spezifische Fähigkeiten wie das visuelle Verständnis bewertet und deren Grenzen aufgezeigt haben, fehlt eine systematische Bewertung der grundlegenden WM-Fähigkeiten von VLMs. Unter Bezugnahme auf die vergleichende Psychologie und Kognitionswissenschaft schlagen wir ein zweistufiges Framework vor, das Wahrnehmung (visuell, räumlich, zeitlich, quantitativ und Bewegung) und Vorhersage (mechanistische Simulation, transitive Inferenz, kompositionelle Inferenz) bewertet, um eine atomare Evaluation von VLMs als WMs zu ermöglichen. Angeleitet durch dieses Framework führen wir WM-ABench ein, einen groß angelegten Benchmark, der 23 fein abgestufte Bewertungsdimensionen über 6 diverse simulierte Umgebungen mit kontrollierten kontrafaktischen Simulationen umfasst. Durch 660 Experimente an 15 aktuellen kommerziellen und Open-Source-VLMs stellen wir fest, dass diese Modelle auffällige Einschränkungen in grundlegenden Fähigkeiten zur Weltmodellierung aufweisen. Beispielsweise erreichen fast alle Modelle eine nahezu zufällige Genauigkeit bei der Unterscheidung von Bewegungsbahnen. Zudem fehlt ihnen ein entkoppeltes Verständnis – einige Modelle neigen beispielsweise dazu, zu glauben, dass blaue Objekte schneller bewegt werden als grüne. Weitere umfangreiche Ergebnisse und Analysen offenbaren signifikante Lücken zwischen VLMs und der menschlichen Weltmodellierung.
Dichte Vorhersageaufgaben haben eine bedeutende Bedeutung in der Computer Vision, da sie darauf abzielen, pixelweise annotierte Labels für ein Eingabebild zu lernen. Trotz Fortschritte in diesem Bereich konzentrieren sich bestehende Methoden hauptsächlich auf idealisierte Bedingungen, mit begrenzter Generalisierung auf reale Szenarien und der Herausforderung der knappen Verfügbarkeit von realen Daten. Um dieses Problem systematisch zu untersuchen, führen wir zunächst DenseWorld ein, einen Benchmark, der eine breite Palette von 25 dichten Vorhersageaufgaben abdeckt, die dringenden realen Anwendungen entsprechen und eine einheitliche Bewertung über Aufgaben hinweg bieten. Anschließend schlagen wir DenseDiT vor, das die visuellen Prioritäten von generativen Modellen maximal nutzt, um diverse reale dichte Vorhersageaufgaben durch eine einheitliche Strategie zu bewältigen. DenseDiT kombiniert einen Parameter-Wiederverwendungsmechanismus und zwei leichtgewichtige Zweige, die adaptiv mehrskaligen Kontext integrieren, und arbeitet mit weniger als 0,1 % zusätzlichen Parametern. Bewertungen auf DenseWorld zeigen signifikante Leistungseinbußen bei bestehenden allgemeinen und spezialisierten Baselines, was deren begrenzte reale Generalisierung unterstreicht. Im Gegensatz dazu erzielt DenseDiT überlegene Ergebnisse mit weniger als 0,01 % der Trainingsdaten der Baselines, was seinen praktischen Wert für den Einsatz in der realen Welt unterstreicht. Unsere Daten, Checkpoints und Codes sind verfügbar unter https://xcltql666.github.io/DenseDiTProj.
Die Robotik hat bemerkenswerte Fortschritte in der Hardware erzielt – von den Urban und Robotics Challenges der DARPA bis hin zum ersten humanoiden Kickbox-Turnier für Roboter – doch die kommerzielle Autonomie hinkt den Fortschritten im maschinellen Lernen noch hinterher. Ein wesentlicher Engpass ist die Software: Aktuelle Robotik-Stacks erfordern steile Lernkurven, Expertise in Low-Level-C/C++, fragmentierte Werkzeuge und komplexe Hardware-Integration, im starken Kontrast zu den Python-zentrierten, gut dokumentierten Ökosystemen, die die moderne KI vorangetrieben haben. Wir stellen ARK vor, ein Open-Source, Python-first Robotik-Framework, das diese Lücke schließen soll. ARK bietet eine Gym-ähnliche Umgebungsschnittstelle, die es Nutzern ermöglicht, Daten zu sammeln, diese vorzuverarbeiten und Richtlinien mit modernsten Imitationslernalgorithmen (z. B. ACT, Diffusion Policy) zu trainieren, während nahtlos zwischen hochgenauer Simulation und physischen Robotern gewechselt werden kann. Eine leichtgewichtige Client-Server-Architektur ermöglicht eine vernetzte Publisher-Subscriber-Kommunikation, und optionale C/C++-Bindings gewährleisten bei Bedarf Echtzeit-Leistung. ARK wird mit wiederverwendbaren Modulen für Steuerung, SLAM, Bewegungsplanung, Systemidentifikation und Visualisierung sowie nativer ROS-Interoperabilität ausgeliefert. Umfassende Dokumentation und Fallstudien – von der Manipulation bis zur mobilen Navigation – demonstrieren schnelles Prototyping, mühelosen Hardware-Austausch und End-to-End-Pipelines, die die Bequemlichkeit gängiger maschineller Lern-Workflows erreichen. Indem ARK Robotik- und KI-Praktiken unter einem gemeinsamen Python-Dach vereint, senkt es die Einstiegshürden und beschleunigt die Forschung und kommerzielle Bereitstellung autonomer Roboter.
Das Aufkommen von Mixture of Experts (MoE) in großen Sprachmodellen verspricht geringe Ausführungskosten bei einer deutlich höheren Anzahl von Modellparametern und Lernkapazität, da für jedes Eingabe-Token nur ein kleiner Teil der Parameter aktiviert wird. Es wird jedoch häufig beobachtet, dass einige Experten weitaus häufiger aktiviert werden als andere, was zu Systemineffizienzen führt, wenn die Experten parallel auf verschiedenen Geräten ausgeführt werden. Daher führen wir Mixture of Grouped Experts (MoGE) ein, das die Experten während der Auswahl gruppiert und die Arbeitslast der Experten von Natur aus besser ausbalanciert als MoE. Es schränkt Tokens darauf ein, eine gleiche Anzahl von Experten innerhalb jeder vordefinierten Expertengruppe zu aktivieren. Wenn die Modellausführung auf mehrere Geräte verteilt wird, stellt dieses Architekturdesign eine ausgewogene Rechenlast über die Geräte sicher und verbessert den Durchsatz erheblich, insbesondere für die Inferenzphase. Darüber hinaus entwickeln wir Pangu Pro MoE auf Ascend NPUs, ein sparsames Modell basierend auf MoGE mit insgesamt 72 Milliarden Parametern, von denen 16 Milliarden für jedes Token aktiviert werden. Die Konfiguration von Pangu Pro MoE wurde für Ascend 300I Duo und 800I A2 durch umfangreiche Systemsimulationsstudien optimiert. Unsere Experimente zeigen, dass MoGE tatsächlich zu einer besseren Ausbalancierung der Expertenlast und einer effizienteren Ausführung sowohl für das Modelltraining als auch für die Inferenz auf Ascend NPUs führt. Die Inferenzleistung von Pangu Pro MoE erreicht 1148 Tokens/s pro Karte und kann durch spekulative Beschleunigung auf 1528 Tokens/s pro Karte weiter verbessert werden, was vergleichbare 32B- und 72B-Dense-Modelle übertrifft. Darüber hinaus erreichen wir ein ausgezeichnetes Kosten-Leistungs-Verhältnis für die Modellinferenz auf Ascend 300I Duo. Unsere Studien zeigen, dass Ascend NPUs in der Lage sind, Pangu Pro MoE mit massiver Parallelisierung zu trainieren, um es zu einem führenden Modell innerhalb der Klasse mit weniger als 100 Milliarden Gesamtparametern zu machen, das bekannte Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B übertrifft.
Jüngste Fortschritte im Bereich des tiefen generativen Modellierens haben beispiellose Möglichkeiten für die Videosynthese eröffnet. In realen Anwendungen suchen Benutzer jedoch oft nach Werkzeugen, um ihre kreativen Bearbeitungsabsichten präzise und konsistent zu steuern. Trotz der Fortschritte, die durch bestehende Methoden erzielt wurden, bleibt die fein abgestimmte Ausrichtung an den Benutzerabsichten ein offenes und herausforderndes Problem. In dieser Arbeit präsentieren wir Shape-for-Motion, ein neuartiges Framework, das einen 3D-Proxy für präzise und konsistente Videobearbeitung integriert. Shape-for-Motion erreicht dies, indem das Zielobjekt im Eingabevideo in ein zeitlich konsistentes Mesh, d.h. einen 3D-Proxy, umgewandelt wird, wodurch Bearbeitungen direkt am Proxy vorgenommen und dann auf die Videobilder zurückgeführt werden können. Um den Bearbeitungsprozess zu vereinfachen, haben wir eine neuartige Dual-Propagation-Strategie entwickelt, die es Benutzern ermöglicht, Bearbeitungen am 3D-Mesh eines einzelnen Bildes vorzunehmen, die dann automatisch auf die 3D-Meshes der anderen Bilder übertragen werden. Die 3D-Meshes für verschiedene Bilder werden weiterhin in den 2D-Raum projiziert, um die bearbeiteten Geometrie- und Textur-Renderings zu erzeugen, die als Eingaben für ein entkoppeltes Video-Diffusionsmodell zur Erzeugung der bearbeiteten Ergebnisse dienen. Unser Framework unterstützt verschiedene präzise und physikalisch konsistente Manipulationen über die Videobilder hinweg, einschließlich Pose-Bearbeitung, Rotation, Skalierung, Translation, Texturmodifikation und Objektkomposition. Unser Ansatz markiert einen wichtigen Schritt hin zu hochwertigen, kontrollierbaren Videobearbeitungs-Workflows. Umfangreiche Experimente demonstrieren die Überlegenheit und Effektivität unseres Ansatzes. Projektseite: https://shapeformotion.github.io/
Aktuelle Vision-Language-Modelle (VLMs) haben Schwierigkeiten mit feinkörnigem räumlichem Denken, insbesondere wenn mehrstufige Logik und präzise räumliche Ausrichtung erforderlich sind. In dieser Arbeit stellen wir SpatialReasoner-R1 vor, ein Vision-Language-Reasoning-Modell, das entwickelt wurde, um diese Einschränkungen zu überwinden. Um hochwertige Supervision für räumliches Denken zu konstruieren, entwickeln wir eine Multi-Model Monte Carlo Tree Search (M3CTS)-Methode, die diverse, logisch konsistente Long Chain-of-Thought (LongCoT)-Reasoning-Trajektorien erzeugt. Zusätzlich schlagen wir feinkörnige Direct Preference Optimization (fDPO) vor, die segmentspezifische Präferenzgranularität für deskriptive Verankerung und logisches Denken einführt, geleitet von einem räumlichen Belohnungsmechanismus, der Kandidatenantworten basierend auf visueller Konsistenz, räumlicher Verankerung und logischer Kohärenz bewertet. Experimentelle Ergebnisse zeigen, dass fDPO eine durchschnittliche Verbesserung von 4,1 % gegenüber Standard-DPO bei räumlichen Qualitätsaufgaben und einen Zuwachs von 9,0 % bei räumlichen Quantitätsaufgaben erzielt. SpatialReasoner-R1, das mit fDPO trainiert wurde, setzt einen neuen State-of-the-Art (SoTA) auf dem SPATIALRGPT-Bench, indem es den stärksten Baseline-Wert um 9,8 % in der durchschnittlichen Genauigkeit übertrifft, während es gleichzeitig wettbewerbsfähige Leistung bei allgemeinen Vision-Language-Aufgaben beibehält.
Diese Arbeit untersucht die Ermöglichung von Chain-of-Thought (CoT)-Denkprozessen, um visuelle Hinweise über mehrere Bilder hinweg zu verknüpfen. Eine naheliegende Lösung besteht darin, regelbasiertes Reinforcement Learning für Vision-Language-Modelle (VLMs) anzupassen. Solche Methoden stützen sich jedoch typischerweise auf manuell kuratierte Frage-Antwort-Paare, was insbesondere bei feingranularen visuellen Details und komplexer Logik über Bilder hinweg besonders herausfordernd sein kann. Inspiriert vom selbstüberwachten visuellen Repräsentationslernen beobachten wir, dass Bilder inhärente Beschränkungen enthalten, die als Supervision dienen können. Basierend auf dieser Erkenntnis konstruieren wir Bild-Triplets, die aus zwei augmentierten Ansichten desselben Bildes und einem dritten, ähnlichen aber unterschiedlichen Bild bestehen. Während des Trainings wird das Modell dazu angeregt, einen Denkprozess zu generieren, um diese Bilder zu vergleichen (d.h. zu bestimmen, ob sie gleich oder unterschiedlich sind). Anschließend optimieren wir das Modell mit regelbasiertem Reinforcement Learning. Aufgrund der hohen visuellen Ähnlichkeit und der Anwesenheit von Augmentierungen muss das Modell subtile visuelle Veränderungen beachten und logisches Denken anwenden, um erfolgreich zu sein. Experimente zeigen, dass die erlernte Denkfähigkeit, obwohl sie ausschließlich an visuellen Vergleichsaufgaben trainiert wurde, effektiv auf eine breite Palette von Fragen verallgemeinert. Ohne sich auf menschlich annotierte Frage-Antwort-Paare zu verlassen, erzielt unsere Methode signifikante Verbesserungen bei Benchmarks für Multi-Bild-Denken und zeigt starke Leistung bei allgemeinen Vision-Aufgaben.
Rasante Fortschritte bei großen Sprachmodellen (LLMs) haben das Potenzial, den wissenschaftlichen Fortschritt zu unterstützen. Eine entscheidende Fähigkeit in diesem Bestreben ist die Möglichkeit, bestehende Arbeiten zu reproduzieren. Um die Fähigkeit von KI-Agenten zur Reproduktion von Ergebnissen in einem aktiven Forschungsgebiet zu bewerten, führen wir den Automated LLM Speedrunning Benchmark ein, der die Beiträge der Forschungsgemeinschaft zum NanoGPT-Speedrun nutzt, einem Wettbewerb zur schnellsten Trainingszeit eines GPT-2-Modells. Jede der 19 Speedrun-Aufgaben stellt dem Agenten das Trainingsskript der bisherigen Rekorde zur Verfügung, optional ergänzt durch eines von drei Hinweisformaten, die von Pseudocode bis zu papierähnlichen Beschreibungen der Verbesserungen der neuen Rekorde reichen. Die Rekorde sind von Natur aus schnell ausführbar, und die Speedrun-Verbesserungen umfassen diverse Code-Änderungen, die von hochrangigen algorithmischen Fortschritten bis zu hardwarebewussten Optimierungen reichen. Diese Merkmale machen das Benchmark sowohl zugänglich als auch realistisch für das Grenzproblem der Verbesserung des LLM-Trainings. Wir stellen fest, dass aktuelle reasoning LLMs in Kombination mit State-of-the-Art-Gerüsten Schwierigkeiten haben, bereits bekannte Innovationen in unserem Benchmark neu zu implementieren, selbst wenn detaillierte Hinweise gegeben werden. Unser Benchmark bietet somit ein einfaches, nicht gesättigtes Maß für die Fähigkeit eines LLMs, die wissenschaftliche Reproduktion zu automatisieren, eine notwendige (aber nicht hinreichende) Fähigkeit für einen autonomen Forschungsagenten.
Können Vision-Language-Modelle (VLMs) die gesamte Szene aus nur wenigen Ansichten imaginieren, wie es Menschen tun? Menschen bilden räumliche mentale Modelle, interne Repräsentationen von nicht sichtbarem Raum, um über Layout, Perspektive und Bewegung zu schließen. Unser neuer MindCube-Benchmark mit 21.154 Fragen über 3.268 Bilder deckt diese kritische Lücke auf, bei der bestehende VLMs nahezu zufällige Leistung zeigen. Mit MindCube evaluieren wir systematisch, wie gut VLMs robuste räumliche mentale Modelle durch die Darstellung von Positionen (kognitive Kartierung), Orientierungen (Perspektivenübernahme) und Dynamiken (mentale Simulation für „Was-wäre-wenn“-Bewegungen) aufbauen. Anschließend untersuchen wir drei Ansätze, um VLMs bei der Annäherung an räumliche mentale Modelle zu unterstützen, darunter nicht sichtbare Zwischenansichten, natürliche Sprachargumentationsketten und kognitive Karten. Die signifikante Verbesserung ergibt sich aus einem synergetischen Ansatz, „map-then-reason“, bei dem das Modell gemeinsam trainiert wird, zunächst eine kognitive Karte zu generieren und dann darauf zu schließen. Durch das Training von Modellen, über diese internen Karten zu schließen, steigerten wir die Genauigkeit von 37,8 % auf 60,8 % (+23,0 %). Die Hinzufügung von Reinforcement Learning trieb die Leistung weiter auf 70,7 % (+32,9 %). Unsere zentrale Erkenntnis ist, dass ein solches Gerüst räumlicher mentaler Modelle, das aktiv interne strukturierte räumliche Repräsentationen mit flexiblen Schließprozessen konstruiert und nutzt, das Verständnis von nicht beobachtbarem Raum erheblich verbessert.
Multimodales In-Context-Lernen (ICL) bleibt trotz seines erheblichen Potenzials für Bereiche wie die Medizin weitgehend unerforscht. Kliniker sehen sich routinemäßig mit vielfältigen, spezialisierten Aufgaben konfrontiert, die eine Anpassung anhand weniger Beispiele erfordern, wie etwa das Ableiten von Erkenntnissen aus einigen relevanten früheren Fällen oder die Betrachtung einer begrenzten Anzahl von Differentialdiagnosen. Während multimodale große Sprachmodelle (MLLMs) Fortschritte im Bereich der medizinischen visuellen Fragebeantwortung (VQA) gezeigt haben, ist ihre Fähigkeit, multimodale Aufgaben aus dem Kontext zu lernen, weitgehend unbekannt. Wir stellen SMMILE vor, den ersten expertenbasierten multimodalen ICL-Benchmark für medizinische Aufgaben. Elf medizinische Experten haben Probleme kuratiert, die jeweils eine multimodale Abfrage und multimodale In-Context-Beispiele als Aufgabenbeispiele umfassen. SMMILE umfasst 111 Probleme (517 Frage-Bild-Antwort-Triplets), die 6 medizinische Fachgebiete und 13 Bildgebungsmodalitäten abdecken. Darüber hinaus führen wir SMMILE++ ein, eine erweiterte Variante mit 1038 permutierten Problemen. Eine umfassende Bewertung von 15 MLLMs zeigt, dass die meisten Modelle eine mäßige bis schlechte multimodale ICL-Fähigkeit bei medizinischen Aufgaben aufweisen. In offenen Bewertungen trägt ICL nur zu einer durchschnittlichen Verbesserung von 8 % gegenüber Zero-Shot auf SMMILE und 9,4 % auf SMMILE++ bei. Wir beobachten eine Anfälligkeit für irrelevante In-Context-Beispiele: Selbst ein einzelnes verrauschtes oder irrelevantes Beispiel kann die Leistung um bis zu 9,5 % verschlechtern. Darüber hinaus zeigt die Reihenfolge der Beispiele einen Recency-Bias, d. h. die Platzierung des relevantesten Beispiels an letzter Stelle kann zu erheblichen Leistungsverbesserungen von bis zu 71 % führen. Unsere Ergebnisse verdeutlichen kritische Einschränkungen und Verzerrungen in aktuellen MLLMs beim Lernen multimodaler medizinischer Aufgaben aus dem Kontext.
Aktuelle Arbeiten zur Analyse des In-Context-Lernens (ICL) haben eine breite Palette von Strategien identifiziert, die das Modellverhalten unter verschiedenen experimentellen Bedingungen beschreiben. Unser Ziel ist es, diese Erkenntnisse zu vereinheitlichen, indem wir die Frage stellen, warum ein Modell überhaupt diese unterschiedlichen Strategien erlernt. Konkret gehen wir von der Beobachtung aus, dass, wenn ein Modell darauf trainiert wird, eine Mischung von Aufgaben zu lernen – wie es in der Literatur üblich ist – die Strategien, die das Modell für die Durchführung von ICL erlernt, durch eine Familie von Bayes’schen Prädiktoren erfasst werden können: einen memorisierenden Prädiktor, der eine diskrete Prior-Verteilung über die Menge der gesehenen Aufgaben annimmt, und einen generalisierenden Prädiktor, bei dem die Prior-Verteilung der zugrunde liegenden Aufgabenverteilung entspricht. Unter der normativen Perspektive der rationalen Analyse, bei der das Verhalten eines Lernenden als optimale Anpassung an die Daten unter Berücksichtigung von Rechenbeschränkungen erklärt wird, entwickeln wir ein hierarchisches Bayes’sches Rahmenwerk, das die nächsten Token-Vorhersagen von Transformern während des Trainings nahezu perfekt vorhersagt – ohne Zugriff auf dessen Gewichte vorauszusetzen. In diesem Rahmenwerk wird das Vortraining als ein Prozess der Aktualisierung der posteriori Wahrscheinlichkeit verschiedener Strategien betrachtet, und das Verhalten zur Inferenzzeit als ein posteriori-gewichteter Durchschnitt über die Vorhersagen dieser Strategien. Unser Rahmenwerk stützt sich auf gängige Annahmen über die Lern dynamiken neuronaler Netze, die einen Kompromiss zwischen Verlust und Komplexität unter den Kandidatenstrategien explizit machen: Neben der Qualität der Erklärung der Daten wird die Präferenz eines Modells für die Implementierung einer Strategie durch deren Komplexität bestimmt. Dies hilft, bekannte ICL-Phänomene zu erklären, während es gleichzeitig neue Vorhersagen bietet: Zum Beispiel zeigen wir einen superlinearen Trend in der Zeitskala für den Übergang von Generalisierung zu Memorierung, wenn die Aufgabenvielfalt zunimmt. Insgesamt leistet unsere Arbeit einen Beitrag zu einer erklärenden und vorhersagenden Darstellung von ICL, die auf Kompromissen zwischen Strategieverlust und Komplexität basiert.
Wir präsentieren Gazal-R1, ein Sprachmodell mit 32 Milliarden Parametern, das Spitzenleistungen im medizinischen Denken erzielt und dabei transparente, schrittweise Erklärungen für klinische Entscheidungsprozesse liefert. Basierend auf Qwen3 32B zeigt unser Modell, dass strategisches Training mittelgroße Modelle befähigen kann, deutlich größere Gegenstücke in spezialisierten Domänen zu übertreffen. Wir entwickelten eine neuartige zweistufige Trainingspipeline: Zuerst erfolgte ein überwachtes Feintuning anhand eines sorgfältig kuratierten Datensatzes von 107.033 synthetischen Beispielen für medizinisches Denken, das strukturiertes klinisches Denken vermittelt, unterstützt durch fortschrittliche parameter-effiziente Techniken wie Weight-Decomposed Low-Rank Adaptation (DoRA) und Rank-Stabilized LoRA (rsLoRA). Anschließend wurde Reinforcement Learning mittels Group Relative Policy Optimization (GRPO) mit einem ausgeklügelten Multi-Komponenten-Belohnungssystem eingesetzt, das Genauigkeit, Formatkonformität und die Qualität der Argumentation verfeinert. Gazal-R1 erzielt herausragende Leistungen in medizinischen Benchmarks, mit 87,1 % auf MedQA, 81,6 % auf MMLU Pro (Medical) und 79,6 % auf PubMedQA, womit es Modelle bis zum 12-fachen seiner Größe übertrifft. Neben den starken empirischen Ergebnissen bietet diese Arbeit detaillierte Einblicke in die Herausforderungen beim Training von Modellen mit Argumentationsfähigkeit in spezialisierten Domänen, einschließlich Problemen wie Reward Hacking, Trainingsinstabilität und der grundlegenden Spannung zwischen Faktenabruf und detaillierter Argumentation. Unsere Methodik bietet einen reproduzierbaren Rahmen für die Entwicklung leistungsstarker, domänenspezifischer Sprachmodelle, die Leistung, Effizienz und Erklärbarkeit in Einklang bringen.
Die meisten Sprachmodelle stehen vor einem grundlegenden Zielkonflikt, bei dem leistungsstarke Fähigkeiten erhebliche Rechenressourcen erfordern. Wir durchbrechen diese Beschränkung mit Jan-nano, einem 4B-Parameter-Sprachmodell, das Effizienz durch radikale Spezialisierung neu definiert: Anstatt zu versuchen, alles zu wissen, beherrscht es die Kunst, alles sofort zu finden. Feinabgestimmt von Qwen3-4B mithilfe unseres neuartigen mehrstufigen RLVR-Systems, das die Abhängigkeit von Next-Token-Prediction-Training (SFT) vollständig eliminiert, erreicht Jan-nano 83,2 % auf dem SimpleQA-Benchmark mit MCP-Integration, während es auf Consumer-Hardware läuft. Mit einer Kontextlänge von 128K beweist Jan-nano, dass Intelligenz nicht von der Größe, sondern von der Strategie abhängt.
Das Streben nach effizienter und kontrollierbarer Erzeugung hochwertiger Inhalte bleibt eine zentrale Herausforderung im Bereich der künstlichen Intelligenz-generierten Inhalte (AIGC). Während Ein-Schritt-Generatoren, ermöglicht durch Diffusionsdistillationstechniken, eine hervorragende Generierungsqualität und Recheneffizienz bieten, stellt die Anpassung an neue Kontrollbedingungen – wie strukturelle Einschränkungen, semantische Richtlinien oder externe Eingaben – eine erhebliche Herausforderung dar. Konventionelle Ansätze erfordern oft rechenintensive Modifikationen des Basismodells und anschließende Diffusionsdistillation. Diese Arbeit stellt Noise Consistency Training (NCT) vor, einen neuartigen und leichtgewichtigen Ansatz, um neue Kontrollsignale direkt in vortrainierte Ein-Schritt-Generatoren zu integrieren, ohne Zugriff auf die ursprünglichen Trainingsbilder oder eine Neuanpassung des Basis-Diffusionsmodells zu benötigen. NCT funktioniert durch die Einführung eines Adaptermoduls und verwendet einen Noise Consistency Loss im Rauschraum des Generators. Dieser Loss sorgt dafür, dass das angepasste Modell sein Generierungsverhalten über Rauschen hinweg abstimmt, die in unterschiedlichem Maße bedingt abhängig sind, und leitet es implizit an, sich an die neue Kontrolle zu halten. Theoretisch kann dieses Trainingsziel als Minimierung der Verteilungsdistanz zwischen dem angepassten Generator und der durch die neuen Bedingungen induzierten bedingten Verteilung verstanden werden. NCT ist modular, dateneffizient und leicht einsetzbar, da es nur auf dem vortrainierten Ein-Schritt-Generator und einem Kontrollsignalmodell basiert. Umfangreiche Experimente zeigen, dass NCT eine state-of-the-art kontrollierbare Generierung in einem einzigen Vorwärtsdurchlauf erreicht und dabei bestehende Mehrschritt- und Distillations-basierte Methoden sowohl in der Generierungsqualität als auch in der Recheneffizienz übertrifft. Der Code ist verfügbar unter https://github.com/Luo-Yihong/NCT.
Wir stellen Confucius3-Math vor, ein Open-Source-Großsprachmodell mit 14 Milliarden Parametern, das (1) effizient auf einer einzigen Consumer-GPU läuft; (2) Spitzenleistungen (SOTA) bei einer Reihe von mathematischen Denkaufgaben erzielt und dabei viele Modelle mit deutlich größeren Parametern übertrifft. Insbesondere im Rahmen unserer Mission, Bildung und Wissensverbreitung durch KI zu fördern, ist Confucius3-Math speziell auf das Mathematik-Lernen für chinesische Schüler und Lehrkräfte der Klassenstufen K-12 ausgerichtet. Durch Nachschulung mit groß angelegtem Reinforcement Learning (RL) ausgebaut, orientiert sich Confucius3-Math am nationalen Lehrplan und zeichnet sich durch die kostengünstige Lösung gängiger mathematischer Probleme der chinesischen K-12-Stufe aus. In diesem Bericht teilen wir unser Entwicklungsrezept, die Herausforderungen, auf die wir gestoßen sind, und die Techniken, die wir zu ihrer Bewältigung entwickelt haben. Insbesondere führen wir drei technische Innovationen ein: Targeted Entropy Regularization, Recent Sample Recovery und Policy-Specific Hardness Weighting. Diese Innovationen umfassen eine neue Entropieregularisierung, eine neuartige Datenplanungsstrategie und einen verbesserten gruppenrelativen Vorteilsschätzer. Gemeinsam stabilisieren sie das RL-Training erheblich, verbessern die Dateneffizienz und steigern die Leistung. Unsere Arbeit zeigt die Machbarkeit, starke Denkmodelle in einem bestimmten Bereich kostengünstig zu entwickeln. Wir stellen unser Modell und unseren Code unter https://github.com/netease-youdao/Confucius3-Math als Open Source zur Verfügung.
In vielen Branchen stellt die Vorhersage metrischer Ergebnisse großer Systeme ein grundlegendes Problem dar, das weitgehend durch traditionelle tabellarische Regression angetrieben wird. Solche Methoden stoßen jedoch bei komplexen Systemdaten in der Praxis, wie Konfigurationsdateien oder Systemprotokollen, an ihre Grenzen, wo die Merkmalsentwicklung oft nicht durchführbar ist. Wir schlagen Text-zu-Text-Regression als eine allgemeine, skalierbare Alternative vor. Für die Vorhersage der Ressourceneffizienz auf Borg, dem massiven Compute-Cluster-Schedulingsystem von Google, erreicht ein Encoder-Decoder-Modell mit 60 Millionen Parametern, das von einer zufälligen Initialisierung trainiert wurde, eine nahezu perfekte Rangkorrelation von bis zu 0,99 (im Durchschnitt 0,9) über die gesamte Flotte hinweg und einen 100-fach geringeren mittleren quadratischen Fehler (MSE) als tabellarische Ansätze. Das Modell passt sich auch leicht an neue Aufgaben mit nur 500 Few-Shot-Beispielen an und erfasst die Dichten komplexer Ergebnisverteilungen. Ablationsstudien unterstreichen die Bedeutung der Verwendung von Encodern, der Erhöhung der Sequenzlänge und der inhärenten Unsicherheitsquantifizierung des Modells. Diese Erkenntnisse ebnen den Weg für universelle Simulatoren realer Ergebnisse.
Moderne Large Language Models, wie die LLaMA-, Qwen- und DeepSeek-Serien, verwenden überwiegend die Pre-LayerNorm (Pre-LN) Transformer-Architektur. Obwohl diese Architektur während des Vortrainings stabil ist und sich auf große Modellgrößen skalieren lässt, leidet Pre-LN unter einem exponentiellen Anstieg der Aktivierungsvarianz über die Schichten hinweg. Dies führt dazu, dass der Residualpfad die Ausgaben der Unterschichten dominiert und die Lernkapazität tieferer Schichten einschränkt. Um dieses Problem zu mildern, schlagen wir Gradient-Preserving Activation Scaling (GPAS) vor, eine einfache Technik, die in Kombination mit bestehenden Ansätzen verwendet werden kann. GPAS funktioniert, indem es die Zwischenaktivierungen herunterskaliert, während ihre Gradienten unverändert bleiben. Dadurch bleibt die Information in den Aktivierungen intakt, und das Problem des Gradientenverschwindens, das mit der Gradientenabschwächung verbunden ist, wird vermieden. Umfangreiche Experimente über verschiedene Modellgrößen von 71M bis 1B zeigen, dass GPAS konsistente Leistungssteigerungen erzielt. Neben der Verbesserung von Pre-LN-Transformern zeigt GPAS auch Potenzial bei der Optimierung alternativer Architekturen wie Sandwich-LN und DeepNorm, was seine Vielseitigkeit und sein Potenzial zur Verbesserung der Trainingsdynamik in einer Vielzahl von Anwendungen unterstreicht.
Der Aufstieg von Bildgebungstechniken wie der optischen Kohärenztomographie (OCT) und Fortschritte im Bereich des Deep Learning (DL) haben es Klinikern und Forschern ermöglicht, die Stadieneinteilung von Netzhauterkrankungen zu optimieren. Ein beliebter DL-Ansatz ist das selbstüberwachte Lernen (SSL), bei dem Modelle aus großen Mengen ungelabelter Daten lernen und so kostspielige Annotationen vermeiden. SSL hat die Entwicklung von Foundation-Modellen (FMs) ermöglicht, große Modelle, die für eine Vielzahl von nachgelagerten Aufgaben eingesetzt werden können. Allerdings fehlt bestehenden FMs für OCT, die ausschließlich auf Bilddaten trainiert wurden, ein umfassendes und robustes semantisches Verständnis der Bilder, wie ihre Leistung bei nachgelagerten Aufgaben (insbesondere bei komplexen Aufgaben) zeigt. Daher benötigen sie eine überwachte Feinabstimmung (die möglicherweise nicht durchführbar ist), um sich besser an spezifische Anwendungen und Populationen anzupassen. Um dies zu adressieren, schlagen wir RetFiner vor, ein SSL-Vision-Language-Verfeinerungsschema, das die Repräsentationen bestehender FMs verbessert und ihre effiziente und direkte Anpassung an spezifische Populationen für eine verbesserte nachgelagerte Leistung ermöglicht. Unsere Methode nutzt eine Vielzahl von Trainingszielen, die den reichhaltigen Aufsichtssignal in Textdaten ausnutzen. Wir haben RetFiner an den retinalen FMs RETFound, UrFound und VisionFM getestet und signifikante Verbesserungen bei der Linear-Probing-Leistung in sieben hochdiversen OCT-Klassifikationsaufgaben festgestellt, mit durchschnittlichen Steigerungen von 5,8, 3,9 und 2,1 Prozentpunkten gegenüber ihren Baselines. Unser Code und unsere Modellgewichte sind öffentlich verfügbar unter https://github.com/ronnief1/RetFiner.
Das Erlernen der hierarchischen Struktur von Daten in Vision-Sprache-Modellen stellt eine erhebliche Herausforderung dar. Frühere Arbeiten haben versucht, diese Herausforderung durch den Einsatz von Entailment-Lernen zu bewältigen. Diese Ansätze scheitern jedoch daran, die transitive Natur von Entailment explizit zu modellieren, welche die Beziehung zwischen Ordnung und Semantik innerhalb eines Repräsentationsraums herstellt. In dieser Arbeit führen wir Radial Cross-Modal Embeddings (RCME) ein, ein Framework, das die explizite Modellierung von transivitätsgesteuertem Entailment ermöglicht. Unser vorgeschlagenes Framework optimiert die partielle Ordnung von Konzepten innerhalb von Vision-Sprache-Modellen. Durch die Nutzung unseres Frameworks entwickeln wir ein hierarchisches Vision-Sprache-Grundmodell, das in der Lage ist, die Hierarchie im Baum des Lebens darzustellen. Unsere Experimente zur hierarchischen Artenklassifikation und zu hierarchischen Retrieval-Aufgaben zeigen die verbesserte Leistung unserer Modelle im Vergleich zu den bestehenden State-of-the-Art-Modellen. Unser Code und unsere Modelle sind unter https://vishu26.github.io/RCME/index.html open-source verfügbar.
Wir stellen TAPAS (Task-based Adaptation and Planning using AgentS) vor, ein Multi-Agenten-Framework, das Large Language Models (LLMs) mit symbolischer Planung integriert, um komplexe Aufgaben zu lösen, ohne manuell definierte Umweltmodelle zu benötigen. TAPAS nutzt spezialisierte LLM-basierte Agenten, die kollaborativ Domänenmodelle, Ausgangszustände und Zielvorgaben nach Bedarf mithilfe strukturierter Tool-Calling-Mechanismen generieren und anpassen. Durch diese werkzeugbasierte Interaktion können nachgelagerte Agenten Änderungen von vorgelagerten Agenten anfordern, wodurch eine Anpassung an neue Attribute und Einschränkungen ohne manuelle Neudefinition der Domäne ermöglicht wird. Ein ReAct (Reason+Act)-stiliger Ausführungsagent, gekoppelt mit der Übersetzung von Plänen in natürlicher Sprache, überbrückt die Lücke zwischen dynamisch generierten Plänen und den Fähigkeiten von Robotern in der realen Welt. TAPAS zeigt eine starke Leistung in Benchmark-Planungsdomänen sowie in der VirtualHome-Simulationsumgebung für die reale Welt.
Test-Time Compute hat sich als leistungsstarkes Paradigma zur Verbesserung der Leistung großer Sprachmodelle (LLMs) etabliert, bei dem die Generierung mehrerer Ausgaben oder die Verfeinerung einzelner Ketten die Antwortgenauigkeit erheblich steigern kann. Bestehende Methoden wie Best-of-N, Mehrheitsentscheidung und Selbstreflexion wenden jedoch in der Regel einheitliches Denken über alle Eingaben hinweg an, ohne zu berücksichtigen, dass unterschiedliche Probleme unterschiedliche Tiefen des Denkens erfordern können. In dieser Arbeit schlagen wir Fractional Reasoning vor, ein trainingsfreies und modellunabhängiges Framework, das eine kontinuierliche Steuerung der Denkintensität zur Inferenzzeit ermöglicht und die Grenzen fester Instruktionsaufforderungen überwindet. Unser Verfahren extrahiert den latenten Steuerungsvektor, der mit tieferem Denken verbunden ist, und wendet ihn mit einem einstellbaren Skalierungsfaktor erneut an, sodass das Modell seinen Denkprozess an die Komplexität jeder Eingabe anpassen kann. Dies unterstützt zwei Schlüsselmodi der Test-Time-Skalierung: (1) die Verbesserung der Ausgabequalität in breitenbasierten Strategien (z. B. Best-of-N, Mehrheitsentscheidung) und (2) die Erhöhung der Korrektheit einzelner Denkketten in tiefenbasierten Strategien (z. B. Selbstreflexion). Experimente auf GSM8K, MATH500 und GPQA zeigen, dass Fractional Reasoning die Leistung über verschiedene Denkaufgaben und Modelle hinweg konsequent verbessert.