Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zum logischen Denken aus, doch das Post-Training bleibt entscheidend, um ihr Verhalten an die Aufgabenziele anzupassen. Bestehende Methoden des Reinforcement Learning (RL) sind oft auf kostspielige menschliche Annotationen oder externe Belohnungsmodelle angewiesen. Wir schlagen Reinforcement Learning via Self-Confidence (RLSC) vor, das das eigene Vertrauen des Modells als Belohnungssignal nutzt – wodurch die Notwendigkeit von Labels, Präferenzmodellen oder Belohnungsentwurf entfällt. Angewendet auf Qwen2.5-Math-7B mit nur 16 Beispielen pro Frage und 10 oder 20 Trainingsschritten, verbessert RLSC die Genauigkeit um +13,4 % auf AIME2024, +21,2 % auf MATH500, +21,7 % auf Minerva Math, +20,8 % auf Olympiadbench und +9,7 % auf AMC23. RLSC bietet eine einfache, skalierbare Post-Training-Methode für Inferenzmodelle, die nur eine geringe Anzahl von Beispielen und unmarkierte Überwachung erfordert.
Bemerkenswerte Durchbrüche in der Diffusionsmodellierung haben rasche Fortschritte in der Videogenerierung vorangetrieben, doch stehen aktuelle Basismodelle weiterhin vor kritischen Herausforderungen, wenn es darum geht, die Befolgung von Anweisungen, die Plausibilität von Bewegungen und die visuelle Qualität gleichzeitig zu gewährleisten. In diesem Bericht stellen wir Seedance 1.0 vor, ein leistungsstarkes und inferenzeffizientes Video-Basismodell zur Generierung, das mehrere zentrale technische Verbesserungen integriert: (i) die Kuratierung von Daten aus mehreren Quellen, ergänzt durch präzise und aussagekräftige Videobeschreibungen, die ein umfassendes Lernen über diverse Szenarien hinweg ermöglichen; (ii) ein effizientes Architekturdesign mit einem vorgeschlagenen Trainingsparadigma, das die native Unterstützung von Mehrfachgenerierung und das gemeinsame Lernen von Text-zu-Video- und Bild-zu-Video-Aufgaben ermöglicht; (iii) sorgfältig optimierte Nachtrainingsansätze, die fein abgestimmtes supervidiertes Fine-Tuning und video-spezifisches RLHF (Reinforcement Learning from Human Feedback) mit mehrdimensionalen Belohnungsmechanismen für umfassende Leistungsverbesserungen nutzen; (iv) eine hervorragende Modellbeschleunigung, die durch mehrstufige Destillationsstrategien und systemweite Optimierungen eine ~10-fache Beschleunigung der Inferenz erreicht. Seedance 1.0 kann ein 5-sekündiges Video in 1080p-Auflösung in nur 41,4 Sekunden generieren (NVIDIA-L20). Im Vergleich zu modernsten Videogenerierungsmodellen zeichnet sich Seedance 1.0 durch eine hochwertige und schnelle Videogenerierung aus, die eine überlegene raumzeitliche Flüssigkeit bei struktureller Stabilität, präzise Anweisungsbefolgung in komplexen Mehrfachsubjektkontexten sowie native narrative Kohärenz bei Mehrfachgenerierung mit konsistenter Subjektdarstellung aufweist.
Bestehende groß angelegte Modelle zur Videogenerierung sind rechenintensiv, was ihre Anwendung in Echtzeit- und interaktiven Anwendungen verhindert. In dieser Arbeit schlagen wir autoregressives adversarisches Nachtraining (AAPT) vor, um ein vortrainiertes latentes Videodiffusionsmodell in einen Echtzeit- und interaktiven Videogenerator zu transformieren. Unser Modell generiert autoregressiv jeweils einen latenten Frame mithilfe einer einzigen neuronalen Funktionsauswertung (1NFE). Das Modell kann das Ergebnis in Echtzeit an den Benutzer streamen und interaktive Rückmeldungen als Steuerungselemente empfangen, um den nächsten latenten Frame zu generieren. Im Gegensatz zu bestehenden Ansätzen untersucht unsere Methode adversarisches Training als effektives Paradigma für die autoregressive Generierung. Dies ermöglicht es uns nicht nur, eine Architektur zu entwerfen, die für die Ein-Schritt-Generierung effizienter ist und gleichzeitig den KV-Cache vollständig nutzt, sondern erlaubt es auch, das Modell in einem Student-Forcing-Verfahren zu trainieren, das sich als wirksam bei der Reduzierung von Fehlerakkumulation während der Generierung langer Videos erweist. Unsere Experimente zeigen, dass unser 8B-Modell eine Echtzeit-Videogenerierung mit 24 Bildern pro Sekunde bei einer Auflösung von 736x416 auf einer einzelnen H100 oder 1280x720 auf 8xH100 bis zu einer Minute Länge (1440 Frames) erreicht. Besuchen Sie unsere Forschungswebsite unter https://seaweed-apt.com/2.
Autoregressive Large Language Models (AR-LLMs) zeigen häufig implizite Parallelität bei der sequenziellen Generierung. Inspiriert davon stellen wir Multiverse vor, ein neues generatives Modell, das native parallele Generierung ermöglicht. Multiverse internalisiert ein MapReduce-Paradigma und generiert automatisch in drei Phasen: (i) eine Map-Phase für adaptive Aufgabenzerlegung, (ii) eine Process-Phase für parallele Ausführung von Teilaufgaben und (iii) eine Reduce-Phase für verlustfreie Ergebnissynthese. Anschließend entwickeln wir ein reales Multiverse-Reasoning-Modell mit Co-Design von Daten, Algorithmus und System, das einen schnellen und nahtlosen Transfer von führenden AR-LLMs ermöglicht. Ausgehend von sequenziellen Reasoning-Ketten erstellen wir Multiverse 1K, indem wir diese mithilfe einer automatisierten, LLM-unterstützten Pipeline in strukturierte Trainingsdaten umwandeln und so kostspielige menschliche Annotationen vermeiden. Algorithmisch entwerfen wir Multiverse Attention, um parallele Reasoning-Schritte zu trennen, während die Kompatibilität mit kausaler Attention für effizientes Training erhalten bleibt. Systematisch implementieren wir die Multiverse Engine, um parallele Inferenz zu ermöglichen. Sie verfügt über einen dedizierten Scheduler, der dynamisch zwischen sequenzieller und paralleler Generierung wechselt, direkt durch das Modell ausgelöst. Nach einem 3-stündigen Fine-Tuning mit 1K Beispielen steht unser Multiverse-32B als das einzige Open-Source-Nicht-AR-Modell da, das eine Leistung auf Augenhöhe mit führenden AR-LLMs gleicher Größe erreicht, belegt durch AIME24- und AIME25-Werte von 54 % bzw. 46 %. Darüber hinaus zeigen unsere Budgetkontroll-Experimente, dass Multiverse-32B eine überlegene Skalierung aufweist und AR-LLMs im Durchschnitt um 1,87 % bei gleicher Kontextlänge übertrifft. Diese Skalierung führt weiterhin zu praktischen Effizienzgewinnen, mit einer Beschleunigung von bis zu 2x über verschiedene Batch-Größen hinweg. Wir haben das gesamte Multiverse-Ökosystem Open-Source zur Verfügung gestellt, einschließlich Daten, Modellgewichten, Engine, unterstützenden Tools sowie vollständigen Datenkuratierungs-Prompts und detaillierten Trainings- und Evaluierungsrezepten.
KI-generierte Inhalte haben sich von monolithischen Modellen zu modularen Workflows entwickelt, insbesondere auf Plattformen wie ComfyUI, was eine Anpassung in kreativen Pipelines ermöglicht. Die Erstellung effektiver Workflows erfordert jedoch großes Fachwissen, um zahlreiche spezialisierte Komponenten zu orchestrieren, was für Benutzer eine steile Lernkurve darstellt. Um diese Herausforderung zu bewältigen, stellen wir ComfyUI-R1 vor, das erste große Reasoning-Modell zur automatisierten Workflow-Generierung. Ausgehend von unserem kuratierten Datensatz mit 4K Workflows konstruieren wir lange Chain-of-Thought (CoT) Reasoning-Daten, einschließlich Knotenauswahl, Workflow-Planung und codebasierter Workflow-Darstellung. ComfyUI-R1 wird durch ein zweistufiges Framework trainiert: (1) CoT-Feintuning für den Kaltstart, um Modelle an die ComfyUI-Domäne anzupassen; (2) Verstärkungslernen zur Förderung der Reasoning-Fähigkeit, geleitet durch eine fein abgestimmte Regel-Metrik-Hybrid-Belohnung, die die Formatvalidität, strukturelle Integrität und Knotenebenen-Treue sicherstellt. Experimente zeigen, dass unser 7B-Parameter-Modell eine Formatvaliditätsrate von 97 % erreicht, zusammen mit hohen Passraten, Knotenebenen- und Graphenebenen-F1-Scores, was frühere state-of-the-art-Methoden, die führende Closed-Source-Modelle wie GPT-4o und die Claude-Serie verwenden, deutlich übertrifft. Weitere Analysen unterstreichen die entscheidende Rolle des Reasoning-Prozesses und den Vorteil der Transformation von Workflows in Code. Qualitative Vergleiche zeigen unsere Stärke bei der Synthese komplexer Workflows mit diversen Knoten und unterstreichen das Potenzial von langen CoT-Reasoning-Prozessen in der KI-Kunstschaffung.
Wir stellen PlayerOne vor, den ersten egozentrischen realistischen Weltsimulator, der eine immersive und uneingeschränkte Erkundung in lebhaft dynamischen Umgebungen ermöglicht. Ausgehend von einem egozentrischen Szenenbild des Benutzers kann PlayerOne die entsprechende Welt präzise konstruieren und egozentrische Videos erzeugen, die streng mit der realen menschlichen Bewegung des Benutzers übereinstimmen, die von einer exozentrischen Kamera aufgenommen wurde. PlayerOne wird in einem grob-zu-fein-Pipeline trainiert, die zunächst ein Vortraining auf groß angelegten egozentrischen Text-Video-Paaren für ein grobes Verständnis der egozentrischen Perspektive durchführt, gefolgt von einem Feintuning auf synchronen Bewegungs-Video-Daten, die mit unserem automatischen Konstruktionspipeline aus egozentrisch-exozentrischen Video-Datensätzen extrahiert wurden. Darüber hinaus berücksichtigen wir die unterschiedliche Bedeutung verschiedener Komponenten und entwerfen ein teil-entwirrtes Bewegungseinspeisungsschema, das eine präzise Steuerung der Bewegungen auf Teilebene ermöglicht. Zusätzlich entwickeln wir ein gemeinsames Rekonstruktionsframework, das sowohl die 4D-Szene als auch die Videobilder progressiv modelliert und so die Szenenkonsistenz bei der Erzeugung langer Videos sicherstellt. Experimentelle Ergebnisse demonstrieren seine große Generalisierungsfähigkeit in der präzisen Steuerung verschiedener menschlicher Bewegungen und der weltkonsistenten Modellierung diverser Szenarien. Es markiert den ersten Versuch in der egozentrischen Simulation der realen Welt und kann den Weg für die Gemeinschaft ebnen, um in neue Grenzen der Weltmodellierung und ihrer vielfältigen Anwendungen einzutauchen.
Jüngste Fortschritte in der Text-zu-Musik-Generierung haben es Modellen ermöglicht, hochwertige Musiksegmente, vollständige Kompositionen zu synthetisieren und sogar auf fein abgestimmte Steuersignale, wie z. B. Akkordfolgen, zu reagieren. State-of-the-Art (SOTA)-Systeme unterscheiden sich erheblich in vielen Dimensionen, wie Trainingsdatensätzen, Modellierungsparadigmen und architektonischen Entscheidungen. Diese Vielfalt erschwert die faire Bewertung von Modellen und die Identifizierung der Designentscheidungen, die die Leistung am meisten beeinflussen. Während Faktoren wie Daten und Architektur wichtig sind, konzentrieren wir uns in dieser Studie ausschließlich auf das Modellierungsparadigma. Wir führen eine systematische empirische Analyse durch, um dessen Auswirkungen zu isolieren, und bieten Einblicke in damit verbundene Kompromisse und emergente Verhaltensweisen, die zukünftige Text-zu-Musik-Generierungssysteme leiten können. Insbesondere vergleichen wir die beiden wohl häufigsten Modellierungsparadigmen: Auto-regressive Dekodierung und Conditional Flow-Matching. Wir führen einen kontrollierten Vergleich durch, indem wir alle Modelle von Grund auf mit identischen Datensätzen, Trainingskonfigurationen und ähnlichen Backbone-Architekturen trainieren. Die Leistung wird über mehrere Achsen hinweg bewertet, einschließlich der Generierungsqualität, der Robustheit gegenüber Inferenzkonfigurationen, der Skalierbarkeit, der Einhaltung sowohl textueller als auch zeitlich ausgerichteter Konditionierung und der Bearbeitungsfähigkeiten in Form von Audio-Inpainting. Diese vergleichende Studie beleuchtet die unterschiedlichen Stärken und Grenzen jedes Paradigmas und bietet umsetzbare Erkenntnisse, die zukünftige architektonische und Trainingsentscheidungen im sich entwickelnden Bereich der Text-zu-Musik-Generierung beeinflussen können. Audio-Beispiele sind verfügbar unter: https://huggingface.co/spaces/ortal1602/ARvsFM
Wir stellen SeerAttention-R vor, ein Framework für spärliche Aufmerksamkeit, das speziell für das lange Decodieren von Reasoning-Modellen entwickelt wurde. Als Erweiterung von SeerAttention behält SeerAttention-R das Design bei, die Aufmerksamkeitssparsität durch einen selbst-distillierten Gating-Mechanismus zu erlernen, während das Query-Pooling entfernt wird, um das autoregressive Decodieren zu ermöglichen. Mit einem leichtgewichtigen Plug-in-Gating ist SeerAttention-R flexibel und kann einfach in bestehende vortrainierte Modelle integriert werden, ohne die ursprünglichen Parameter zu verändern. Wir zeigen, dass SeerAttention-R, das mit nur 0,4B Tokens trainiert wurde, eine nahezu verlustfreie Reasoning-Genauigkeit mit einem 4K-Token-Budget im AIME-Benchmark bei großen spärlichen Aufmerksamkeitsblockgrößen (64/128) beibehält. Mit TileLang entwickeln wir einen hochoptimierten spärlichen Decodier-Kernel, der nahezu theoretische Beschleunigungen von bis zu 9x gegenüber FlashAttention-3 auf der H100-GPU bei 90% Sparsität erreicht. Der Code ist verfügbar unter: https://github.com/microsoft/SeerAttention.
Große Sprachmodelle (LLMs) sind mittlerweile in verschiedenen Bereichen unverzichtbar und haben beeindruckende Leistungen gezeigt. Der Fortschritt beruht jedoch auf der Voraussetzung, dass Benchmark-Ergebnisse sowohl genau als auch reproduzierbar sind. Wir zeigen, dass die Reproduzierbarkeit der Leistung von LLMs fragil ist: Änderungen der Systemkonfiguration, wie z. B. die Batch-Größe bei der Auswertung, die Anzahl der GPUs und die GPU-Version, können signifikante Unterschiede in den generierten Antworten hervorrufen. Dieses Problem ist besonders ausgeprägt bei Modellen, die auf logischem Schlussfolgern basieren, bei denen geringfügige Rundungsunterschiede in frühen Tokens zu divergenten Gedankenketten führen können, was letztendlich die Genauigkeit beeinflusst. Beispielsweise kann ein Modell wie DeepSeek-R1-Distill-Qwen-7B unter bfloat16-Präzision mit Greedy-Decoding eine Variation der Genauigkeit von bis zu 9 % und eine Differenz von 9.000 Tokens in der Antwortlänge aufweisen, bedingt durch Unterschiede in der GPU-Anzahl, dem GPU-Typ und der Batch-Größe bei der Auswertung. Wir führen die Ursache dieser Variabilität auf die nicht-assoziative Natur der Gleitkommaarithmetik bei begrenzter numerischer Präzision zurück. Diese Arbeit stellt die erste systematische Untersuchung dar, wie numerische Präzision die Reproduzierbarkeit bei der Inferenz von LLMs beeinflusst. Durch sorgfältig kontrollierte Experimente über verschiedene Hardware-, Software- und Präzisionseinstellungen hinweg quantifizieren wir, wann und wie sich Modellausgaben unterscheiden. Unsere Analyse zeigt, dass die Gleitkommapräzision – obwohl entscheidend für die Reproduzierbarkeit – in der Evaluierungspraxis oft vernachlässigt wird. Inspiriert davon entwickeln wir eine leichtgewichtige Inferenz-Pipeline, genannt LayerCast, die Gewichte in 16-Bit-Präzision speichert, aber alle Berechnungen in FP32 durchführt, wodurch Speichereffizienz und numerische Stabilität in Einklang gebracht werden. Der Code ist verfügbar unter https://github.com/nanomaoli/llm_reproducibility.
Wir stellen **SWE-Flow** vor, ein neuartiges Daten-Synthese-Framework, das auf Test-Driven Development (TDD) basiert. Im Gegensatz zu bestehenden Software-Engineering-Daten, die auf von Menschen eingereichten Issues beruhen, leitet **SWE-Flow** automatisch inkrementelle Entwicklungsschritte direkt aus Unit-Tests ab, die inhärent hochrangige Anforderungen abbilden. Das Kernstück von **SWE-Flow** ist die Konstruktion eines Runtime Dependency Graphs (RDG), der präzise die Interaktionen zwischen Funktionen erfasst und die Generierung eines strukturierten, schrittweisen *Entwicklungsplans* ermöglicht. In jedem Schritt erzeugt **SWE-Flow** einen partiellen Codebestand, die entsprechenden Unit-Tests sowie die notwendigen Code-Modifikationen, was zu vollständig verifizierbaren TDD-Aufgaben führt. Mit diesem Ansatz generierten wir 16.061 Trainingsinstanzen und 2.020 Testinstanzen aus realen GitHub-Projekten und schufen damit den **SWE-Flow-Eval**-Benchmark. Unsere Experimente zeigen, dass das Fine-Tuning von Open-Modellen auf diesem Datensatz die Leistung bei TDD-basiertem Programmieren signifikant verbessert. Um weitere Forschung zu ermöglichen, veröffentlichen wir den gesamten Code, die Datensätze, Modelle und Docker-Images auf [Github](https://github.com/Hambaobao/SWE-Flow).
Große Reasoning-Modelle (LRMs) wie o1 und DeepSeek-R1 haben bemerkenswerte Fortschritte im natürlichen Sprachverständnis mit langen Ketten von Gedanken (Chain-of-Thought, CoT) gezeigt, bleiben jedoch ineffizient oder ungenau bei der Handhabung komplexer mathematischer Operationen. Die Bewältigung dieser Einschränkungen durch rechnerische Werkzeuge (z. B. Rechenbibliotheken und symbolische Löser) ist vielversprechend, führt jedoch zu einer technischen Herausforderung: Der Code-Interpreter (CI) bringt externes Wissen über die internen Textrepräsentationen des Modells hinaus, wodurch die direkte Kombination nicht effizient ist. Dieses Papier stellt CoRT vor, ein Post-Training-Framework, um LRMs beizubringen, den CI effektiv und effizient zu nutzen. Als ersten Schritt adressieren wir das Problem der Datenknappheit, indem wir Code-integrierte Reasoning-Daten durch Hint-Engineering synthetisieren, das strategisch verschiedene Hinweise an geeigneten Positionen einfügt, um die LRM-CI-Interaktion zu optimieren. Wir erstellen manuell 30 hochwertige Beispiele, auf denen wir Modelle mit 1,5B bis 32B Parametern nachtrainieren, mit überwachtem Feintuning, Ablehnungs-Feintuning und Verstärkungslernen. Unsere experimentellen Ergebnisse zeigen, dass Hint-Engineering-Modelle absolute Verbesserungen von 4 % bzw. 8 % auf DeepSeek-R1-Distill-Qwen-32B und DeepSeek-R1-Distill-Qwen-1.5B über fünf anspruchsvolle mathematische Reasoning-Datensätze erzielen. Darüber hinaus verwenden Hint-Engineering-Modelle etwa 30 % weniger Tokens für das 32B-Modell und 50 % weniger Tokens für das 1,5B-Modell im Vergleich zu natürlichen Sprachmodellen. Die Modelle und der Code sind verfügbar unter https://github.com/ChengpengLi1003/CoRT.
End-to-End-Mensch-Animation mit umfangreichen multimodalen Bedingungen, wie Text, Bild und Audio, hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Die meisten bestehenden Methoden können jedoch nur ein einzelnes Subjekt animieren und Bedingungen auf globale Weise einfügen, wodurch Szenarien ignoriert werden, in denen mehrere Konzepte im selben Video mit komplexen Mensch-Mensch- und Mensch-Objekt-Interaktionen auftreten können. Diese globale Annahme verhindert eine präzise und identitätsspezifische Kontrolle mehrerer Konzepte, einschließlich Menschen und Objekten, und behindert somit Anwendungen. In dieser Arbeit verwerfen wir die Annahme einer einzelnen Entität und führen ein neuartiges Framework ein, das eine starke, regionsspezifische Bindung von Bedingungen aus Modalitäten an den raumzeitlichen Fußabdruck jeder Identität erzwingt. Bei gegebenen Referenzbildern mehrerer Konzepte kann unsere Methode Layout-Informationen automatisch ableiten, indem sie einen Maskenprädiktor nutzt, um Erscheinungsmerkmale zwischen dem entrauschten Video und jedem Referenzbild abzugleichen. Darüber hinaus fügen wir lokale Audio-Bedingungen in ihre entsprechenden Regionen ein, um eine layoutausgerichtete Modalitätsanpassung in iterativer Weise sicherzustellen. Dieser Entwurf ermöglicht die hochwertige Erzeugung kontrollierbarer, mehrkonzeptbezogener, menschenzentrierter Videos. Empirische Ergebnisse und Ablationsstudien bestätigen die Wirksamkeit unserer expliziten Layoutkontrolle für multimodale Bedingungen im Vergleich zu impliziten Ansätzen und anderen bestehenden Methoden.
LLMs werden überwiegend in der synchronen Kommunikation eingesetzt, bei der ein menschlicher Benutzer und ein Modell in abwechselnden Zügen kommunizieren. Im Gegensatz dazu sind viele reale Szenarien inhärent asynchron. Beispielsweise gibt es in Gruppenchats, Online-Teambesprechungen oder sozialen Spielen kein inhärentes Konzept von Zügen; daher ist die Entscheidung, wann gesprochen wird, ein entscheidender Teil der Entscheidungsfindung der Teilnehmer. In dieser Arbeit entwickeln wir einen adaptiven asynchronen LLM-Agenten, der zusätzlich zur Bestimmung dessen, was gesagt werden soll, auch entscheidet, wann es gesagt wird. Um unseren Agenten zu evaluieren, sammeln wir einen einzigartigen Datensatz von Online-Mafia-Spielen, der sowohl menschliche Teilnehmer als auch unseren asynchronen Agenten umfasst. Insgesamt schneidet unser Agent auf Augenhöhe mit menschlichen Spielern ab, sowohl in Bezug auf die Spielleistung als auch auf die Fähigkeit, sich mit den anderen menschlichen Spielern zu integrieren. Unsere Analyse zeigt, dass das Verhalten des Agenten bei der Entscheidung, wann gesprochen wird, menschlichen Mustern stark ähnelt, obwohl Unterschiede im Nachrichteninhalt auftreten. Wir veröffentlichen alle unsere Daten und Codes, um weitere Forschungen für realistischere asynchrone Kommunikation zwischen LLM-Agenten zu unterstützen und zu fördern. Diese Arbeit ebnet den Weg für die Integration von LLMs in realistische menschliche Gruppensettings, von der Unterstützung in Teamdiskussionen bis hin zu Bildungs- und Berufsumgebungen, in denen komplexe soziale Dynamiken navigiert werden müssen.
Trotz der rasanten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) wurde die Bedeutung der visuellen Verarbeitung weitgehend übersehen. In einem einfachen, aber aufschlussreichen Experiment stellen wir interessanterweise fest, dass sprachbasierte Modelle, wenn sie mit Bildbeschreibungen versehen werden, eine vergleichbare oder sogar bessere Leistung erzielen können als MLLMs, die rohe visuelle Eingaben verarbeiten. Dies deutet darauf hin, dass aktuelle MLLMs zwar präzise visuelle Beschreibungen generieren können, diese jedoch während des Schlussfolgerns nicht effektiv integrieren. Motiviert durch diese Erkenntnis schlagen wir ein einfaches Framework für visuelle Störungen vor, das die perzeptive Robustheit verbessert, ohne algorithmische Anpassungen oder zusätzliche Trainingsdaten zu erfordern. Unser Ansatz führt drei gezielte Störungen ein: die Konkatenation von Ablenkern, den dominanzbewahrenden Mixup und die zufällige Rotation, die problemlos in bestehende Post-Training-Pipelines wie SFT, DPO und GRPO integriert werden können. Durch umfangreiche Experimente über mehrere Datensätze hinweg zeigen wir konsistente Verbesserungen in der mathematischen Schlussfolgerungsleistung, mit Gewinnen, die denen durch algorithmische Änderungen erreichten vergleichbar sind. Zusätzlich erzielen wir eine wettbewerbsfähige Leistung unter Open-Source-7B-RL-optimierten Modellen, indem wir Qwen2.5-VL-7B mit visuellen Störungen trainieren. Durch umfassende Ablationsstudien analysieren wir die Wirksamkeit verschiedener Störungsstrategien und zeigen, dass jeder Störungstyp einzigartig zu verschiedenen Aspekten der visuellen Schlussfolgerung beiträgt. Unsere Ergebnisse unterstreichen die entscheidende Rolle visueller Störungen bei der multimodalen mathematischen Schlussfolgerung: Besseres Schlussfolgern beginnt mit besserem Sehen. Unser Code ist unter https://github.com/YutingLi0606/Vision-Matters verfügbar.
Während Vision-Language-Action-Modelle (VLAs) vielversprechende robotische Verhaltensweisen über eine Vielzahl von Manipulationsaufgaben hinweg gezeigt haben, erzielen sie begrenzte Erfolgsraten, wenn sie ohne Anpassungen auf neuen Aufgaben eingesetzt werden. Um diesen Richtlinien eine sichere Interaktion mit ihrer Umgebung zu ermöglichen, benötigen wir einen Fehlerdetektor, der rechtzeitig eine Warnung gibt, sodass der Roboter anhalten, zurückkehren oder um Hilfe bitten kann. Bisherige Fehlerdetektoren werden jedoch nur für eine oder wenige spezifische Aufgaben trainiert und getestet, während VLAs erfordern, dass der Detektor auch bei unbekannten Aufgaben und neuen Umgebungen generalisiert und Fehler erkennt. In diesem Artikel führen wir das Problem der Multitask-Fehlererkennung ein und schlagen SAFE vor, einen Fehlerdetektor für generalistische Roboterrichtlinien wie VLAs. Wir analysieren den Merkmalsraum von VLAs und stellen fest, dass VLAs über ausreichendes hochrangiges Wissen über Aufgaben-Erfolg und -Fehler verfügen, das über verschiedene Aufgaben hinweg generisch ist. Basierend auf dieser Erkenntnis entwerfen wir SAFE, um aus internen Merkmalen von VLAs zu lernen und einen einzelnen Skalar vorherzusagen, der die Wahrscheinlichkeit eines Aufgabenfehlers angibt. SAFE wird sowohl auf erfolgreichen als auch fehlgeschlagenen Durchläufen trainiert und auf unbekannten Aufgaben evaluiert. SAFE ist mit verschiedenen Richtlinienarchitekturen kompatibel. Wir testen es ausführlich auf OpenVLA, pi_0 und pi_0-FAST in simulierten und realen Umgebungen. Wir vergleichen SAFE mit verschiedenen Baselines und zeigen, dass SAFE eine state-of-the-art Fehlererkennungsleistung und den besten Kompromiss zwischen Genauigkeit und Erkennungszeit mittels konformer Vorhersage erreicht. Weitere qualitative Ergebnisse finden Sie unter https://vla-safe.github.io/.
Sprache bietet eine natürliche Schnittstelle, um die Leistung bei visuellen Aufgaben zu spezifizieren und zu bewerten. Um diese Möglichkeit zu realisieren, müssen Vision-Language-Modelle (VLMs) visuelle und linguistische Informationen erfolgreich integrieren. Unsere Arbeit vergleicht VLMs mit einem direkten Auslesen ihrer visuellen Encoder, um ihre Fähigkeit zur Integration über diese Modalitäten hinweg zu verstehen. Über eine Reihe von visuell zentrierten Benchmarks (z. B. Tiefenschätzung, Korrespondenz) stellen wir fest, dass VLMs deutlich schlechter abschneiden als ihre visuellen Encoder und auf nahezu zufällige Leistung abfallen. Wir untersuchen diese Ergebnisse durch eine Reihe von Analysen über das gesamte VLM hinweg, nämlich 1) die Verschlechterung der visuellen Repräsentationen, 2) die Anfälligkeit gegenüber Aufgabenprompts und 3) die Rolle des Sprachmodells bei der Lösung der Aufgabe. Wir stellen fest, dass der Engpass bei der Ausführung dieser visuell zentrierten Aufgaben in der dritten Kategorie liegt; VLMs nutzen die visuellen Informationen, die im gesamten Modell leicht zugänglich sind, nicht effektiv, und sie übernehmen die Sprachpriors, die im LLM vorhanden sind. Unsere Arbeit hilft, die Fehlermodi von Open-Source-VLMs zu diagnostizieren, und präsentiert eine Reihe von Bewertungen, die für zukünftige Untersuchungen zum visuellen Verständnis innerhalb von VLMs nützlich sind.
Jüngste Fortschritte in der 3D-Objekterzeugung haben sowohl die Qualität als auch die Effizienz erheblich verbessert. Die meisten bestehenden Methoden erzeugen jedoch ein einzelnes Netz, bei dem alle Teile miteinander verschmolzen sind, was die Möglichkeit einschränkt, einzelne Teile zu bearbeiten oder zu manipulieren. Eine zentrale Herausforderung besteht darin, dass verschiedene Objekte eine unterschiedliche Anzahl von Teilen aufweisen können. Um dies zu adressieren, schlagen wir ein neues End-to-End-Framework für die teilebasierte 3D-Objekterzeugung vor. Bei Eingabe eines einzelnen Bilds erzeugt unsere Methode hochwertige 3D-Objekte mit einer beliebigen Anzahl von vollständigen und semantisch sinnvollen Teilen. Wir führen eine duale Volumenpackungsstrategie ein, die alle Teile in zwei komplementäre Volumen organisiert, wodurch die Erstellung von vollständigen und ineinandergreifenden Teilen ermöglicht wird, die sich zum finalen Objekt zusammensetzen. Experimente zeigen, dass unser Modell im Vergleich zu früheren bildbasierten Methoden zur teilebasierten Erzeugung eine bessere Qualität, Vielfalt und Generalisierungsfähigkeit erreicht.
Dichte Bildkorrespondenz ist zentral für viele Anwendungen, wie visuelle Odometrie, 3D-Rekonstruktion, Objektzuordnung und Re-Identifikation. Historisch wurde die dichte Korrespondenz getrennt für Szenarien mit großer Basislinie und für die Schätzung des optischen Flusses behandelt, obwohl das gemeinsame Ziel darin besteht, Inhalte zwischen zwei Bildern abzugleichen. In diesem Artikel entwickeln wir ein Unified Flow & Matching-Modell (UFM), das auf vereinheitlichten Daten für Pixel trainiert wird, die sowohl im Quell- als auch im Zielbild sichtbar sind. UFM verwendet eine einfache, generische Transformer-Architektur, die direkt den (u,v)-Fluss regressiert. Es ist einfacher zu trainieren und genauer für große Flüsse im Vergleich zu den typischen grob-zu-fein-Kostenvolumina in früheren Arbeiten. UFM ist 28 % genauer als state-of-the-art Flussmethoden (Unimatch), hat gleichzeitig 62 % weniger Fehler und ist 6,7-mal schneller als dichte Wide-Baseline-Matcher (RoMa). UFM ist das erste Modell, das zeigt, dass vereinheitlichtes Training spezialisierte Ansätze in beiden Domänen übertreffen kann. Dieses Ergebnis ermöglicht schnelle, allgemeine Korrespondenz und eröffnet neue Richtungen für multimodale, langreichweitige und Echtzeit-Korrespondenzaufgaben.
Gaze-referenzielle Inferenz – die Fähigkeit, zu erschließen, worauf andere blicken – ist eine entscheidende Komponente einer Theory of Mind, die natürliche Mensch-KI-Interaktionen ermöglicht. In einer kontrollierten Studie bewerteten wir diese Fähigkeit bei 111 Vision-Language-Modellen (VLMs) anhand von Fotos mit manipulierter Schwierigkeit und Variabilität, verglichen die Leistung mit der menschlicher Teilnehmer (N = 65) und analysierten das Verhalten mithilfe von Mixed-Effects-Modellen. Wir fanden heraus, dass 94 der 111 VLMs nicht besser als zufälliges Raten abschnitten, während Menschen eine nahezu perfekte Genauigkeit erreichten. VLMs antworteten sogar nahezu gleich häufig mit jeder Wahl. Raten sie zufällig? Obwohl die meisten VLMs Schwierigkeiten hatten, zeigte sich bei einer genaueren Betrachtung von fünf der leistungsstärksten VLMs mit überzufälliger Leistung, dass ihre Leistung mit zunehmender Aufgabenkomplexität abnahm, aber nur geringfügig über verschiedene Prompts und Szenenobjekte variierte. Diese Verhaltensmerkmale lassen sich nicht durch die Annahme erklären, dass sie zufällig raten. Stattdessen nutzen sie wahrscheinlich eine Kombination aus Heuristiken und Raten, sodass ihre Leistung von der Aufgabenkomplexität abhängt, aber robust gegenüber wahrnehmungsbedingten Variationen ist. Dies deutet darauf hin, dass VLMs, denen die Fähigkeit zur Blickinferenz fehlt, noch keine Technologien sind, die natürlich mit Menschen interagieren können, aber das Potenzial bleibt bestehen.
Das Feinabstimmen von Video-Diffusionsmodellen (VDMs) auf Benutzerebene, um Videos zu generieren, die spezifische Attribute der Trainingsdaten widerspiegeln, stellt beachtliche Herausforderungen dar und bleibt trotz seiner praktischen Bedeutung weitgehend unerforscht. In der Zwischenzeit hat aktuelle Forschung wie Representation Alignment (REPA) vielversprechende Ergebnisse bei der Verbesserung der Konvergenz und Qualität von DiT-basierten Bilddiffusionsmodellen gezeigt, indem die internen verborgenen Zustände mit externen vortrainierten visuellen Merkmalen abgeglichen oder assimiliert wurden, was auf sein Potenzial für die Feinabstimmung von VDMs hindeutet. In dieser Arbeit schlagen wir zunächst eine direkte Anpassung von REPA für VDMs vor und zeigen empirisch, dass es zwar effektiv für die Konvergenz ist, jedoch suboptimal in der Bewahrung der semantischen Konsistenz über Frames hinweg. Um diese Einschränkung zu überwinden, führen wir Cross-frame Representation Alignment (CREPA) ein, eine neuartige Regularisierungstechnik, die die verborgenen Zustände eines Frames mit externen Merkmalen aus benachbarten Frames abgleicht. Empirische Auswertungen an groß angelegten VDMs, einschließlich CogVideoX-5B und Hunyuan Video, demonstrieren, dass CREPA sowohl die visuelle Qualität als auch die semantische Kohärenz über Frames hinweg verbessert, wenn es mit parameter-effizienten Methoden wie LoRA feinabgestimmt wird. Wir validieren CREPA weiterhin über diverse Datensätze mit unterschiedlichen Attributen und bestätigen damit seine breite Anwendbarkeit. Projektseite: https://crepavideo.github.io
Es ist wichtig, dass große Sprachmodelle sich der Grenzen ihres Wissens bewusst sind und über einen Mechanismus verfügen, um bekannte und unbekannte Anfragen zu identifizieren. Diese Art von Bewusstsein kann den Modellen helfen, adaptive Inferenz durchzuführen, wie beispielsweise das Aufrufen von RAG (Retrieval-Augmented Generation), das Einleiten von langsamem und tiefem Denken oder die Anwendung eines Verzichtsmechanismus, was die Entwicklung effizienter und vertrauenswürdiger KI fördert. In dieser Arbeit schlagen wir eine Methode zur Erkennung von Wissensgrenzen über die Unsicherheit auf Abfrageebene vor, die darauf abzielt, festzustellen, ob das Modell in der Lage ist, eine gegebene Anfrage zu beantworten, ohne dabei Token zu generieren. Zu diesem Zweck führen wir eine neuartige und trainingsfreie Methode namens „Internal Confidence“ ein, die Selbsteinschätzungen über Schichten und Token hinweg nutzt. Empirische Ergebnisse sowohl bei faktischen Frage-Antwort-Aufgaben als auch bei mathematischen Denkaufgaben zeigen, dass unsere interne Konfidenz mehrere Baseline-Methoden übertreffen kann. Darüber hinaus demonstrieren wir, dass unsere vorgeschlagene Methode für effizientes RAG und Modellkaskadierung verwendet werden kann, was in der Lage ist, die Inferenzkosten zu reduzieren, während die Leistung erhalten bleibt.
Künstliche Intelligenz (KI) hat sich zu einem grundlegenden Werkzeug entwickelt, um Kliniker bei der Analyse ophthalmologischer Bilder, wie der optischen Kohärenztomographie (OCT), zu unterstützen. Die Entwicklung von KI-Modellen erfordert jedoch oft umfangreiche Annotationen, und bestehende Modelle tendieren dazu, bei unabhängigen, unbekannten Daten schlechter abzuschneiden. Foundation-Modelle (FMs), große KI-Modelle, die auf umfangreichen unmarkierten Datensätzen trainiert wurden, haben Potenzial gezeigt, diese Herausforderungen zu bewältigen. Dennoch fehlt es an verfügbaren FMs für die Ophthalmologie an umfassender Validierung, insbesondere für Segmentierungsaufgaben, und sie konzentrieren sich auf eine einzige Bildgebungsmodalität. In diesem Zusammenhang schlagen wir MIRAGE vor, ein neuartiges multimodales FM für die Analyse von OCT- und Scanning-Laser-Ophthalmoskopie (SLO)-Bildern. Zusätzlich schlagen wir einen neuen Evaluierungsbenchmark mit OCT/SLO-Klassifikations- und Segmentierungsaufgaben vor. Der Vergleich mit allgemeinen und spezialisierten FMs sowie Segmentierungsmethoden zeigt die Überlegenheit von MIRAGE in beiden Aufgabentypen und unterstreicht seine Eignung als Grundlage für die Entwicklung robuster KI-Systeme zur Analyse retinaler OCT-Bilder. Sowohl MIRAGE als auch der Evaluierungsbenchmark sind öffentlich verfügbar: https://github.com/j-morano/MIRAGE.
Während große Sprachmodelle (LLMs) die rasante Weiterentwicklung der künstlichen Intelligenz vorantreiben, bleibt die effektive und zuverlässige Ausbildung dieser großen Modelle eine der größten Herausforderungen in diesem Bereich. Um dieser Herausforderung zu begegnen, schlagen wir POET vor, einen neuartigen reparametrisierten Trainingsalgorithmus, der die Orthogonale Äquivalenztransformation zur Optimierung von Neuronen nutzt. Konkret parametrisiert POET jedes Neuron mit zwei lernbaren orthogonalen Matrizen und einer festen zufälligen Gewichtsmatrix neu. Aufgrund der nachweisbaren Erhaltung der spektralen Eigenschaften von Gewichtsmatrizen kann POET die Zielfunktion stabil optimieren und dabei die Generalisierungsfähigkeit verbessern. Wir entwickeln weiterhin effiziente Approximationen, die POET flexibel und skalierbar für das Training großer neuronaler Netzwerke machen. Umfangreiche Experimente bestätigen die Wirksamkeit und Skalierbarkeit von POET beim Training von LLMs.
Medical Visual Question Answering (MedVQA) ist ein vielversprechendes Feld für die Entwicklung klinischer Entscheidungsunterstützungssysteme, doch der Fortschritt wird oft durch die verfügbaren Datensätze begrenzt, denen es an klinischer Komplexität und visueller Vielfalt mangeln kann. Um diese Lücken zu schließen, stellen wir Kvasir-VQA-x1 vor, einen neuen, groß angelegten Datensatz für die gastrointestinale (GI) Endoskopie. Unsere Arbeit erweitert den ursprünglichen Kvasir-VQA-Datensatz erheblich, indem wir 159.549 neue Frage-Antwort-Paare integrieren, die entwickelt wurden, um tiefergehendes klinisches Denken zu testen. Wir haben eine systematische Methode unter Verwendung großer Sprachmodelle entwickelt, um diese Fragen zu generieren, die nach Komplexität geschichtet sind, um die Inferenzfähigkeiten eines Modells besser bewerten zu können. Um sicherzustellen, dass unser Datensatz Modelle auf reale klinische Szenarien vorbereitet, haben wir auch eine Vielzahl von visuellen Augmentierungen eingeführt, die häufige Bildartefakte nachahmen. Der Datensatz ist so strukturiert, dass er zwei Hauptbewertungstracks unterstützt: einen für die Standard-VQA-Leistung und einen weiteren, um die Robustheit der Modelle gegenüber diesen visuellen Störungen zu testen. Durch die Bereitstellung eines anspruchsvolleren und klinisch relevanteren Benchmarks zielt Kvasir-VQA-x1 darauf ab, die Entwicklung zuverlässigerer und effektiverer multimodaler KI-Systeme für den Einsatz in klinischen Umgebungen zu beschleunigen. Der Datensatz ist vollständig zugänglich und entspricht den FAIR-Datenprinzipien, was ihn zu einer wertvollen Ressource für die breitere Forschungsgemeinschaft macht. Code und Daten: https://github.com/Simula/Kvasir-VQA-x1 und https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Die Vorhersage von Zwischentrajektorien zwischen einer Ausgangs- und einer Zielverteilung ist ein zentrales Problem im Bereich des generativen Modellierens. Bestehende Ansätze wie Flow Matching und Schrödinger Bridge Matching lernen effektiv Abbildungen zwischen zwei Verteilungen, indem sie einen einzelnen stochastischen Pfad modellieren. Diese Methoden sind jedoch von Natur aus auf unimodale Übergänge beschränkt und können keine verzweigten oder divergenten Entwicklungen von einem gemeinsamen Ursprung zu mehreren unterschiedlichen Endzuständen erfassen. Um dies zu adressieren, führen wir Branched Schrödinger Bridge Matching (BranchSBM) ein, ein neuartiges Framework, das verzweigte Schrödinger-Brücken lernt. BranchSBM parametrisiert mehrere zeitabhängige Geschwindigkeitsfelder und Wachstumsprozesse, wodurch die Darstellung von populationsweiter Divergenz in mehrere Endverteilungen ermöglicht wird. Wir zeigen, dass BranchSBM nicht nur ausdrucksstärker ist, sondern auch essenziell für Aufgaben wie die Navigation auf Mehrpfad-Oberflächen, die Modellierung von Zellschicksalsbifurkationen aus homogenen Vorläuferzuständen und die Simulation divergierender zellulärer Reaktionen auf Perturbationen.
Große Sprachmodelle stoßen häufig auf Konflikte zwischen ihrem parametrischen Wissen und kontextuellen Eingaben, was oft zu faktischen Inkonsistenzen oder Halluzinationen führt. Wir schlagen Self-Reflective Debate for Contextual Reliability (SR-DCR) vor, ein leichtgewichtiges Framework, das token-basierte Selbstsicherheit mit einer asymmetrischen Multi-Agenten-Debatte integriert, um solche Konflikte zu entscheiden. Ein Kritiker, der ohne Kontext agiert, stellt einen Verteidiger in Frage, der auf der Grundlage des gegebenen Textes argumentiert; ein Richtermodell bewertet die Debatte und bestimmt die Zuverlässigkeit des Kontextes. Die endgültige Antwort wird durch die Kombination des Urteils mit der Modellsicherheit ausgewählt. Experimente auf dem ClashEval-Benchmark zeigen, dass SR-DCR die Robustheit gegenüber irreführendem Kontext konsequent verbessert, während die Genauigkeit bei vertrauenswürdigen Eingaben erhalten bleibt, und sowohl klassische Debatten als auch rein sicherheitsbasierte Ansätze mit minimalem Rechenaufwand übertrifft. Der Code ist verfügbar unter https://github.com/smiles724/Self-Reflective-Debates.
Große Reasoning-Modelle (LRMs) haben beeindruckende Reasoning-Fähigkeiten in einer Vielzahl von Aufgaben gezeigt, einschließlich Olympiade-Level mathematischer Probleme, was Hinweise auf ihre komplexen Reasoning-Fähigkeiten liefert. Während sich viele Reasoning-Benchmarks auf den STEM-Bereich konzentrieren, bleibt die Fähigkeit von LRMs, in breiteren Aufgabenbereichen korrekt zu reasoning, weitgehend unerforscht. In dieser Arbeit stellen wir TTT-Bench vor, einen neuen Benchmark, der entwickelt wurde, um grundlegende strategische, räumliche und logische Reasoning-Fähigkeiten von LRMs durch eine Reihe von vier Zwei-Spieler-Tic-Tac-Toe-ähnlichen Spielen zu bewerten, die Menschen bereits in jungen Jahren mühelos lösen können. Wir schlagen einen einfachen, aber skalierbaren programmatischen Ansatz zur Generierung überprüfbarer Zwei-Spieler-Spielprobleme für TTT-Bench vor. Obwohl diese Spiele für Menschen trivial sind, erfordern sie ein Reasoning über die Absichten des Gegners sowie die räumlichen Konfigurationen des Spielbretts, um einen Sieg zu sichern. Wir bewerten eine Vielzahl von state-of-the-art LRMs und stellen fest, dass Modelle, die bei schwierigen Matheproblemen hervorragend abschneiden, häufig bei diesen einfachen Reasoning-Spielen versagen. Weitere Tests zeigen, dass unsere bewerteten Reasoning-Modelle im Durchschnitt ↓41\% & ↓5\% schlechter bei TTT-Bench abschneiden im Vergleich zu MATH 500 & AIME 2024, wobei größere Modelle mit kürzeren Reasoning-Traces eine höhere Leistung erzielen, während die meisten Modelle bei langfristigen strategischen Reasoning-Situationen in einfachen und neuen TTT-Bench-Aufgaben Schwierigkeiten haben.
Jüngste Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) haben viele Forscher dazu veranlasst, sich auf den Aufbau vollständig autonomer KI-Agenten zu konzentrieren. Dieses Positionspapier stellt infrage, ob dieser Ansatz der richtige Weg nach vorne ist, da diese autonomen Systeme weiterhin Probleme mit Zuverlässigkeit, Transparenz und dem Verständnis der tatsächlichen menschlichen Anforderungen haben. Wir schlagen einen anderen Ansatz vor: LLM-basierte Mensch-Agenten-Systeme (LLM-HAS), bei denen KI mit Menschen zusammenarbeitet, anstatt sie zu ersetzen. Indem der Mensch einbezogen bleibt, um Anleitung zu geben, Fragen zu beantworten und die Kontrolle zu behalten, können diese Systeme vertrauenswürdiger und anpassungsfähiger sein. Anhand von Beispielen aus den Bereichen Gesundheitswesen, Finanzen und Softwareentwicklung zeigen wir, wie die Zusammenarbeit zwischen Mensch und KI komplexe Aufgaben besser bewältigen kann als KI allein. Wir diskutieren auch die Herausforderungen beim Aufbau dieser kollaborativen Systeme und bieten praktische Lösungen an. Dieses Papier argumentiert, dass der Fortschritt in der KI nicht daran gemessen werden sollte, wie unabhängig Systeme werden, sondern daran, wie gut sie mit Menschen zusammenarbeiten können. Die vielversprechendste Zukunft der KI liegt nicht in Systemen, die menschliche Rollen übernehmen, sondern in solchen, die menschliche Fähigkeiten durch eine sinnvolle Partnerschaft erweitern.