Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während multimodale große Sprachmodelle beeindruckende semantische Fähigkeiten demonstrieren, leiden sie häufig unter räumlicher Blindheit und haben Schwierigkeiten mit feinkörniger geometrischer Reasoning und physikalischer Dynamik. Bestehende Lösungen stützen sich typischerweise auf explizite 3D-Modalitäten oder komplexe geometrische Gerüste, die durch Datenknappheit und Generalisierungsherausforderungen limitiert sind. In dieser Arbeit schlagen wir einen Paradigmenwechsel vor, indem wir das implizite räumliche Vorwissen innerhalb großskaliger Videogenerierungsmodelle nutzen. Wir postulieren, dass diese Modelle, um zeitlich kohärente Videos zu synthetisieren, inherent robuste 3D-Strukturpriori und physikalische Gesetze erlernen. Wir stellen VEGA-3D (Video Extracted Generative Awareness) vor, ein Plug-and-Play-Framework, das ein vortrainiertes Video-Diffusionsmodell als einen Latent World Simulator zweckentfremdet. Durch die Extraktion raumzeitlicher Merkmale aus intermediären Rauschlevels und deren Integration mit semantischen Repräsentationen über einen token-level adaptiven gated Fusion-Mechanismus, erweitern wir MLLMs um dichte geometrische Hinweise ohne explizite 3D-Aufsicht. Umfangreiche Experimente in den Bereichen 3D-Szenenverständnis, räumliches Reasoning und Embodied-Manipulation-Benchmarks demonstrieren, dass unsere Methode state-of-the-art Baselines übertrifft und validiert, dass generative Priori eine skalierbare Grundlage für das Verständnis der physikalischen Welt bieten. Der Code ist öffentlich verfügbar unter https://github.com/H-EmbodVis/VEGA-3D.
Aktuelle instruktionsgesteuerte Video-Bearbeitungsmodelle haben Schwierigkeiten, präzise semantische Modifikationen mit treuer Bewegungserhaltung gleichzeitig in Einklang zu bringen. Während bestehende Ansätze auf das Einspielen expliziter externer Priori (z.B. VLM-Merkmale oder strukturelle Bedingungen) setzen, um diese Probleme zu mildern, stellt diese Abhängigkeit einen erheblichen Engpass für die Robustheit und Generalisierungsfähigkeit des Modells dar. Um diese Einschränkung zu überwinden, präsentieren wir SAMA (faktorisierte Semantische Verankerung und Bewegungsausrichtung), ein Framework, das die Videobearbeitung in semantische Verankerung und Bewegungsmodellierung faktorisiert. Zunächst führen wir die Semantische Verankerung ein, die einen zuverlässigen visuellen Anker schafft, indem sie semantische Tokens und Video-Latenzen an spärlich verteilten Ankerframes gemeinsam vorhersagt und so eine rein instruktionsbewusste Strukturplanung ermöglicht. Zweitens prä-trainiert die Bewegungsausrichtung das gleiche Backbone auf bewegungszentrierten Video-Restaurations-Pretext-Aufgaben (Cube-Inpainting, Geschwindigkeitsperturbation und Tube-Shuffle), wodurch das Modell zeitliche Dynamiken direkt aus den Rohvideos internalisiert. SAMA wird mit einer zweistufigen Pipeline optimiert: einer faktorisierten Pre-Training-Phase, die inhärente Semantik-Bewegungs-Repräsentationen ohne gepaarte Video-Instruktions-Bearbeitungsdaten lernt, gefolgt von einem überwachten Feinabstimmen auf gepaarten Bearbeitungsdaten. Bemerkenswerterweise führt das faktorisierte Pre-Training allein bereits zu einer starken Zero-Shot-Videobearbeitungsfähigkeit, was die vorgeschlagene Faktorisierung validiert. SAMA erreicht state-of-the-art Leistung unter Open-Source-Modellen und ist mit führenden kommerziellen Systemen (z.B. Kling-Omni) wettbewerbsfähig. Code, Modelle und Datensätze werden veröffentlicht.
Wir stellen Nemotron-Cascade 2 vor, ein offenes 30B-MoE-Modell mit 3B aktivierten Parametern, das erstklassige Reasoning-Fähigkeiten und starke agentische Fähigkeiten bietet. Trotz seiner kompakten Größe nähert sich seine Leistung im mathematischen und programmierspezifischen Reasoning der von führenden offenen Modellen an. Es ist das zweite Open-Weight-LLM nach DeepSeekV3.2-Speciale-671B-A37B, das eine Goldmedaillen-Leistung bei der Internationalen Mathematik-Olympiade (IMO) 2025, der Internationalen Informatik-Olympiade (IOI) und dem ICPC World Finals erreicht, und demonstriert damit eine bemerkenswert hohe Intelligenzdichte bei 20-mal weniger Parametern. Im Gegensatz zu Nemotron-Cascade 1 sind die wichtigsten technischen Fortschritte wie folgt. Nach dem SFT auf einem sorgfältig kuratierten Datensatz erweitern wir das Cascade RL erheblich, um ein viel breiteres Spektrum an Reasoning- und agentischen Domänen abzudecken. Darüber hinaus führen wir eine domänenübergreifende On-Policy-Distillation von den stärksten intermediären Lehrer-Modellen für jede Domäne während des gesamten Cascade-RL-Prozesses ein, was es uns ermöglicht, Benchmark-Regressionen effizient auszugleichen und dabei starke Leistungssteigerungen beizubehalten. Wir veröffentlichen die Sammlung von Modell-Checkpoints und Trainingsdaten.
Die Erstellung dynamischer, blickkonsistenter Videos von individualisierten Objekten ist für eine Vielzahl neuartiger Anwendungen wie immersive VR/AR, virtuelle Produktion und E-Commerce der nächsten Generation stark nachgefragt. Trotz rascher Fortschritte bei der subjektgesteuerten Videogenerierung behandeln bestehende Methoden Objekte jedoch überwiegend als 2D-Entitäten und konzentrieren sich auf die Identitätsübertragung durch einansichtige visuelle Merkmale oder Textprompts. Da Objekte in der realen Welt inhärent 3D sind, offenbart die Anwendung dieser 2D-zentrierten Ansätze zur 3D-Objektindividualisierung eine grundlegende Einschränkung: Es mangelt ihnen an umfassenden räumlichen Priori-Informationen, die für die Rekonstruktion der 3D-Geometrie notwendig sind. Folglich müssen sie bei der Synthese neuartiger Blickwinkel auf die Generierung plausibler, aber beliebiger Details für nicht einsehbare Bereiche zurückgreifen, anstatt die tatsächliche 3D-Identität zu bewahren. Echte 3D-bewusste Individualisierung bleibt aufgrund der Knappheit an Multi-View-Videodatensätzen herausfordernd. Obwohl man Modelle auf begrenzten Videosequenzen feinabstimmen könnte, führt dies häufig zu temporalem Overfitting. Zur Lösung dieser Probleme stellen wir ein neuartiges Framework für 3D-bewusste Videoindividualisierung vor, bestehend aus 3DreamBooth und 3Dapter. 3DreamBooth entkoppelt räumliche Geometrie von temporaler Bewegung durch ein 1-Bild-Optimierungsparadigma. Durch die Beschränkung von Aktualisierungen auf räumliche Repräsentationen baut es effektiv ein robustes 3D-Prior in das Modell ein, ohne aufwendiges videobasiertes Training zu benötigen. Zur Verbesserung feinkörniger Texturen und Beschleunigung der Konvergenz integrieren wir 3Dapter, ein visuelles Konditionierungsmodul. Nach Einansichtsvortraining durchläuft 3Dapter eine Multi-View-Gemeinschaftsoptimierung mit dem Hauptgenerierungszweig über eine asymmetrische Konditionierungsstrategie. Dieses Design ermöglicht es dem Modul, als dynamischer selektiver Router zu agieren, der ansichtsspezifische geometrische Hinweise aus einem minimalen Referenzsatzes abfragt. Projektseite: https://ko-lani.github.io/3DreamBooth/
Echtzeitausführung ist entscheidend für den Einsatz von Vision-Language-Action (VLA)-Modellen in der physischen Welt. Bestehende asynchrone Inferenzmethoden optimieren primär die Trajektorienglättung, vernachlässigen jedoch die kritische Latenzzeit bei der Reaktion auf Umweltveränderungen. Durch eine Neubetrachtung des Reaktionsbegriffs in Action-Chunking-Policies bietet diese Arbeit eine systematische Analyse der Faktoren, die die Reaktionszeit bestimmen. Wir zeigen, dass die Reaktionszeit einer Gleichverteilung folgt, die gemeinsam von der Zeit bis zur ersten Aktion (Time to First Action, TTFA) und dem Ausführungshorizont bestimmt wird. Darüber hinaus zeigen wir, dass die gängige Praxis, einen konstanten Zeitplan in flow-basierten VLAs anzuwenden, ineffizient sein kann und das System zwingt, alle Sampling-Schritte abzuschließen, bevor eine Bewegung beginnen kann, was den Engpass bei der Reaktionslatenz darstellt. Um dieses Problem zu überwinden, schlagen wir Fast Action Sampling for ImmediaTE Reaction (FASTER) vor. Durch die Einführung eines horizonbewussten Zeitplans priorisiert FASTER adaptiv kurzfristige Aktionen während des Flow-Samplings und komprimiert die Entrauschung der unmittelbaren Reaktion um das Zehnfache (z.B. in π_{0.5} und X-VLA) in einem einzigen Schritt, während die Qualität der langfristigen Trajektorie erhalten bleibt. In Kombination mit einer Streaming-Client-Server-Pipeline reduziert FASTER die effektive Reaktionslatenz auf realen Robotern erheblich, insbesondere bei Einsatz auf Consumer-Grade-GPUs. Experimente in der realen Welt, einschließlich einer hochdynamischen Tischtennisaufgabe, belegen, dass FASTER eine beispiellose Echtzeitreaktionsfähigkeit für generalistische Policies freisetzt und die schnelle Generierung präziser und glatter Trajektorien ermöglicht.
Wir stellen Memento-Skills vor, ein generalistisches, kontinuierlich lernfähiges LLM-Agentensystem, das als Agenten-entwerfender Agent fungiert: Es konstruiert, passt an und verbessert autonom aufgaben-spezifische Agenten durch Erfahrung. Das System basiert auf einem gedächtnisbasierten Reinforcement-Learning-Framework mit zustandsbehafteten Prompts, wobei wiederverwendbare Fähigkeiten (gespeichert als strukturierte Markdown-Dateien) als persistenter, sich entwickelnder Speicher dienen. Diese Fähigkeiten kodieren sowohl Verhalten als auch Kontext und ermöglichen es dem Agenten, Wissen über Interaktionen hinweg mitzuführen. Ausgehend von einfachen elementaren Fähigkeiten (wie Websuche und Terminaloperationen) verbessert sich der Agent kontinuierlich durch den in Memento~2~wang2025memento2 eingeführten Read-Write Reflective Learning-Mechanismus. In der Lese-Phase wählt ein verhaltenstrainierbarer Skill-Router die relevanteste Fähigkeit basierend auf dem aktuellen zustandsbehafteten Prompt aus; in der Schreib-Phase aktualisiert und erweitert der Agent seine Fähigkeitsbibliothek basierend auf neuen Erfahrungen. Dieser Closed-Loop-Entwurf ermöglicht kontinuierliches Lernen ohne Aktualisierung der LLM-Parameter, da alle Anpassungen durch die Evolution externalisierter Fähigkeiten und Prompts realisiert werden. Im Gegensatz zu früheren Ansätzen, die auf menschlich entworfenen Agenten basieren, ermöglicht Memento-Skills einem generalistischen Agenten, End-to-End-Agenten für neue Aufgaben zu entwerfen. Durch iterative Fähigkeitsgenerierung und -verfeinerung verbessert das System seine Fähigkeiten progressiv. Experimente auf dem General AI Assistants Benchmark und Humanity's Last Exam demonstrieren anhaltende Leistungssteigerungen mit relativen Verbesserungen der Gesamtgenauigkeit von 26,2 % bzw. 116,2 %. Der Code ist verfügbar unter https://github.com/Memento-Teams/Memento-Skills.
Die bisherige Bewegungsgenerierung folgt weitgehend zwei Paradigmen: kontinuierliche Diffusionsmodelle, die sich durch kinematische Steuerung auszeichnen, und diskrete tokenbasierte Generatoren, die effektiv für semantische Konditionierung sind. Um ihre Stärken zu kombinieren, schlagen wir ein dreistufiges Framework vor, das die Extraktion von Konditionsmerkmalen (Wahrnehmung), die Erzeugung diskreter Tokens (Planung) und die diffusionsbasierte Bewegungssynthese (Steuerung) umfasst. Kernstück dieses Frameworks ist MoTok, ein diffusionsbasierter diskreter Bewegungstokenisierer, der semantische Abstraktion von feingranularer Rekonstruktion entkoppelt, indem er die Bewegungsrückgewinnung an einen Diffusionsdecoder delegiert. Dies ermöglicht kompakte Single-Layer-Tokens bei gleichzeitiger Bewahrung der Bewegungsqualität. Bei kinematischen Bedingungen leiten grobe Randbedingungen die Tokengenerierung während der Planungsphase, während feingranulare Randbedingungen während der Steuerphase durch diffusionsbasierte Optimierung durchgesetzt werden. Dieser Entwurf verhindert, dass kinematische Details die semantische Tokenplanung stören. Auf HumanML3D verbessert unsere Methode die Steuerbarkeit und Qualität im Vergleich zu MaskControl erheblich, wobei nur ein Sechstel der Tokens verwendet wird. Der Trajektorienfehler verringert sich von 0,72 cm auf 0,08 cm und der FID von 0,083 auf 0,029. Im Gegensatz zu früheren Methoden, die unter stärkeren kinematischen Zwängen an Qualität einbüßen, verbessert unsere Methode die Qualität und reduziert den FID von 0,033 auf 0,014.
Die Rekonstruktion artikulierter 3D-Objekte aus einem einzelnen Bild erfordert die gemeinsame Inferenz von Objektgeometrie, Teilstruktur und Bewegungsparametern aus begrenzten visuellen Informationen. Eine zentrale Schwierigkeit liegt in der Verflechtung von Bewegungshinweisen und Objektstruktur, was eine direkte Regression der Artikulation instabil macht. Bestehende Methoden begegnen dieser Herausforderung durch Multi-View-Supervision, retrievalbasierte Assemblierung oder die Generierung von Hilfsvideos, was oft mit Einbußen bei der Skalierbarkeit oder Effizienz einhergeht. Wir stellen MonoArt vor, einen einheitlichen Rahmen, der auf progressiver struktureller Reasoning basiert. Anstatt die Artikulation direkt aus Bildmerkmalen vorherzusagen, transformiert MonoArt visuelle Beobachtungen schrittweise innerhalb einer einzigen Architektur in kanonische Geometrie, strukturierte Teilrepräsentationen und bewegungssensitive Embeddings. Dieser strukturierte Reasoning-Prozess ermöglicht eine stabile und interpretierbare Artikulationsinferenz ohne externe Bewegungstemplates oder mehrstufige Pipelines. Umfangreiche Experimente auf PartNet-Mobility zeigen, dass MonoArt state-of-the-art Leistung sowohl in der Rekonstruktionsgenauigkeit als auch in der Inferenzgeschwindigkeit erreicht. Das Framework generalisiert zudem auf robotergestützte Manipulation und die Rekonstruktion artikulierter Szenen.
Visuelle Generierung mit diskreten Token hat erheblich an Bedeutung gewonnen, da sie ein einheitliches Token-Vorhersageparadigma ermöglicht, das mit Sprachmodellen geteilt werden kann und nahtlose multimodale Architekturen verspricht. Allerdings sind aktuelle diskrete Generierungsmethoden nach wie vor auf niedrigdimensionale latente Token (typischerweise 8-32 Dimensionen) beschränkt, was den für das Verständnis essenziellen semantischen Reichtum opfert. Während hochdimensionale vortrainierte Repräsentationen (768-1024 Dimensionen) diese Lücke schließen könnten, stellt ihre diskrete Generierung grundlegende Herausforderungen dar. In diesem Artikel präsentieren wir Cubic Discrete Diffusion (CubiD), das erste diskrete Generierungsmodell für hochdimensionale Repräsentationen. CubiD führt feinkörniges Maskieren über die gesamte hochdimensionale diskrete Repräsentation hinweg durch – jede Dimension an jeder Position kann maskiert und aus partiellen Beobachtungen vorhergesagt werden. Dies ermöglicht es dem Modell, reiche Korrelationen sowohl innerhalb als auch zwischen räumlichen Positionen zu erlernen, wobei die Anzahl der Generierungsschritte unabhängig von der Feature-Dimensionalität auf T festgelegt ist, wobei T ≪ hwd gilt. Auf ImageNet-256 erreicht CubiD state-of-the-art diskrete Generierung mit starkem Skalierungsverhalten von 900M bis 3.7B Parametern. Entscheidend ist, dass wir validieren, dass diese diskretisierten Token die ursprünglichen Repräsentationsfähigkeiten bewahren, und demonstrieren, dass dieselben diskreten Token sowohl Verstehens- als auch Generierungsaufgaben effektiv bedienen können. Wir hoffen, dass diese Arbeit zukünftige Forschung hin zu vereinheitlichten multimodalen Architekturen inspirieren wird. Code ist verfügbar unter: https://github.com/YuqingWang1029/CubiD.
Wir stellen F2LLM-v2 vor, eine neue Familie vielseitiger, mehrsprachiger Embedding-Modelle in 8 verschiedenen Größen von 80M bis 14B. Das Modell wurde auf einem neu kuratierten Datensatz von 60 Millionen öffentlich verfügbaren, hochwertigen Datenpunkten trainiert und unterstützt über 200 Sprachen, mit besonderem Fokus auf bisher unterversorgte Mittel- und Niedrigressourcensprachen. Durch die Integration einer zweistufigen, LLM-basierten Embedding-Trainingspipeline mit Matrjoschka-Lernen, Modellverschlankung und Wissensdistillation präsentieren wir Modelle, die erheblich effizienter als frühere LLM-basierte Embedding-Modelle sind, bei gleichzeitig wettbewerbsfähiger Leistung. Umfassende Evaluationen bestätigen, dass F2LLM-v2-14B auf 11 MTEB-Benchmarks den ersten Platz belegt, während die kleineren Modelle der Familie einen neuen State-of-the-Art für ressourcenbeschränkte Anwendungen setzen. Zur Förderung der Open-Source-Forschung an Embedding-Modellen veröffentlichen wir alle Modelle, Daten, Codes und Zwischencheckpoints.
Jüngste Fortschritte bei omnimodalen großen Sprachmodellen (OmniLLMs) haben das Verständnis von Audio- und Videoeingängen erheblich verbessert. Allerdings konzentrieren sich aktuelle Evaluationen primär auf kurze Audio- und Videoclips von 10 Sekunden bis 5 Minuten, was den Anforderungen realer Anwendungen nicht gerecht wird, da Videos typischerweise mehrere zehn Minuten lang sind. Um diese kritische Lücke zu schließen, stellen wir LVOmniBench vor, einen neuen Benchmark, der speziell für das cross-modale Verständnis von langen Audio- und Videoformaten entwickelt wurde. Dieser Datensatz umfasst hochwertige Videos von offenen Plattformen mit reichhaltigen audiovisuellen Dynamiken. Durch strenge manuelle Auswahl und Annotation besteht LVOmniBench aus 275 Videos mit einer Dauer von 10 bis 90 Minuten und 1.014 Frage-Antwort-Paaren. LVOmniBench zielt darauf ab, die Fähigkeiten von OmniLLMs in Bereichen wie Langzeitgedächtnis, temporale Lokalisierung, feinkörniges Verständnis und multimodale Wahrnehmung rigoros zu bewerten. Unsere umfangreiche Auswertung zeigt, dass aktuelle OmniLLMs erhebliche Schwierigkeiten bei der Verarbeitung langer audiovisueller Eingaben haben. Open-Source-Modelle erreichen generell Genauigkeiten unter 35 %, während Gemini 3 Pro eine Spitzengenauigkeit von etwa 65 % erzielt. Wir erwarten, dass dieser Datensatz zusammen mit unseren empirischen Ergebnissen weitere Forschungen und die Entwicklung fortschrittlicher Modelle anregt, die komplexe cross-modale Verständnisprobleme in langen audiovisuellen Kontexten lösen können.
Langfristige GUI-Agenten sind ein entscheidender Schritt hin zum realen Einsatz, dennoch bleibt effektive Interaktionsspeicherung unter vorherrschenden Paradigmen unzureichend erforscht. Die Wiederholung vollständiger Interaktionssequenzen ist redundant und verstärkt Rauschen, während Zusammenfassungen oft abhängigkeitskritische Informationen und Nachverfolgbarkeit löschen. Wir stellen AndroTMem vor, ein Diagnoseframework für verankerte Speicherung in langfristigen Android-GUI-Agenten. Sein Kern-Benchmark, AndroTMem-Bench, umfasst 1.069 Aufgaben mit 34.473 Interaktionsschritten (Ø 32.1 pro Aufgabe, max. 65). Wir bewerten Agenten mit TCR (Task Completion Rate), wobei der Fokus auf Aufgaben liegt, deren Abschluss das Weitertragen kritischer Zwischenzustände erfordert; AndroTMem-Bench ist so konzipiert, dass er starke schritt-zu-Schritt-Kausalabhängigkeiten erzwingt, wodurch spärliche aber essentielle Zwischenzustände entscheidend für nachgelagerte Aktionen werden und Interaktionsspeicherung ins Zentrum der Evaluation rücken. Über Open-Source- und Closed-Source-GUI-Agenten hinweg beobachten wir ein konsistentes Muster: Mit zunehmender Länge der Interaktionssequenzen werden Leistungseinbußen hauptsächlich durch speicherinterne Fehler innerhalb der Aufgabe verursacht, nicht durch isolierte Wahrnehmungsfehler oder lokale Aktionsfehler. Aufbauend auf dieser Diagnose schlagen wir Anchored State Memory (ASM) vor, das Interaktionssequenzen als kompakte Menge kausal verknüpfter Zwischenzustands-Anker repräsentiert, um teilzielorientierte Abfrage und zuschreibungsbewusste Entscheidungsfindung zu ermöglichen. Über multiple Settings und 12 evaluierte GUI-Agenten hinweg übertrifft ASM konsistent Baseline-Methoden mit Vollsequenzwiederholung und zusammenfassungsbasierten Ansätzen, verbessert TCR um 5%-30.16% und AMS um 4.93%-24.66%, was zeigt, dass verankerter, strukturierter Speicher den Interaktionsspeicher-Engpass in langfristigen GUI-Aufgaben effektiv mindert. Code, Benchmark und zugehörige Ressourcen sind öffentlich verfügbar unter [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
In dieser Arbeit stellen wir eine neue Aufgabe vor, die Reaktive Zuhörerbewegungsgenerierung aus Sprecheräußerungen, deren Ziel es ist, natürliche Körperbewegungen des Zuhörers zu erzeugen, die angemessen auf die Äußerung eines Sprechers reagieren. Die Modellierung solcher nonverbalen Zuhörerreaktionen ist jedoch nach wie vor wenig erforscht und herausfordernd, da menschliche Reaktionen von Natur aus nicht-deterministisch sind. Um diese Aufgabe zu unterstützen, präsentieren wir ReactMotionNet, einen umfangreichen Datensatz, der Sprecheräußerungen mit mehreren Kandidaten für Zuhörerbewegungen paart, die mit unterschiedlichen Angemessenheitsgraden annotiert sind. Dieser Datensatz-Design-Ansatz erfasst explizit die Eins-zu-viele-Natur von Zuhörerverhalten und bietet eine Überwachung, die über eine einzelne Ground-Truth-Bewegung hinausgeht. Aufbauend auf diesem Datensatzdesign entwickeln wir präferenzorientierte Evaluierungsprotokolle, die speziell darauf ausgelegt sind, die reaktive Angemessenheit zu bewerten, wobei konventionelle Bewegungsmetriken, die sich auf die Input-Bewegungs-Übereinstimmung konzentrieren, dies vernachlässigen. Weiterhin schlagen wir ReactMotion vor, ein einheitliches generatives Framework, das Text, Audio, Emotion und Bewegung gemeinsam modelliert und mit präferenzbasierten Zielen trainiert wird, um sowohl angemessene als auch vielfältige Zuhörerreaktionen zu fördern. Umfangreiche Experimente zeigen, dass ReactMotion Retrieval-Baselines und kaskadierte, LLM-basierte Pipelines übertrifft und natürlichere, vielfältigere und angemessenere Zuhörerbewegungen generiert.
Jüngste Fortschritte erweitern die Fähigkeiten Multimodaler Großsprachmodelle (MLLMs) über standardmäßiges visuelles Frage-Antworten hinaus hin zur Nutzung externer Werkzeuge für anspruchsvolle visuelle Aufgaben. Trotz dieser Fortschritte bleiben die präzise Ausführung und effektive Komposition verschiedener Werkzeuge für komplexe Aufgaben ein anhaltender Engpass. Aufgrund beschränkter Werkzeugsammlungen und einfacher Werkzeugnutzungsverläufe erfassen bestehende Benchmarks keine komplexen und vielfältigen Werkzeuginteraktionen und sind ungeeignet, um die Modellleistung unter praktischen, realen Bedingungen zu bewerten. Um diese Lücke zu schließen, stellen wir VisualToolChain-Bench (VTC-Bench) vor, einen umfassenden Benchmark zur Bewertung der Werkzeugnutzungskompetenz von MLLMs. Um realistische Computer-Vision-Pipelines abzubilden, umfasst unser Framework 32 verschiedene OpenCV-basierte visuelle Operationen. Diese umfangreiche Werkzeugsammlung ermöglicht umfassende Kombinationen und erlaubt es VTC-Bench, Multi-Tool-Komposition und langfristige, mehrstufige Planausführung rigoros zu bewerten. Für eine präzise Evaluation stellen wir 680 kuratierte Probleme bereit, die in einer neunstufigen kognitiven Hierarchie strukturiert sind, jeweils mit Referenz-Ausführungsverläufen. Umfangreiche Experimente mit 19 führenden MLLMs zeigen kritische Grenzen der aktuellen visuellen agentiellen Fähigkeiten der Modelle auf. Insbesondere haben Modelle Schwierigkeiten, sich an diverse Werkzeugsammlungen anzupassen und auf unbekannte Operationen zu verallgemeinern, wobei das führende Modell Gemini-3.0-Pro in unserem Benchmark nur 51% erreicht. Darüber hinaus bleibt die Multi-Tool-Komposition eine beständige Herausforderung. Bei komplexen Aufgaben gelingt es Modellen nicht, effiziente Ausführungspläne zu formulieren; sie greifen stark auf einen engen, suboptimalen Teilbereich vertrauter Funktionen zurück, anstatt die optimalen Werkzeuge auszuwählen. Durch die Identifizierung dieser grundlegenden Herausforderungen etabliert VTC-Bench eine rigorose Basis, um die Entwicklung generalisierterer visuell agentieller Modelle zu leiten.
Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Erfolge bei der Interpretation natürlicher Szenen erzielt haben, bleibt ihre Fähigkeit, diskrete Symbole – die grundlegenden Bausteine menschlicher Kognition – zu verarbeiten, eine entscheidende offene Frage. Im Gegensatz zu kontinuierlichen visuellen Daten erfordern Symbole wie mathematische Formeln, chemische Strukturen und linguistische Zeichen eine präzise, tiefgründigere Interpretation. Dieses Papier stellt einen umfassenden Benchmark vor, um zu bewerten, wie führende MLLMs diese "diskreten semantischen Räume" in fünf Domänen navigieren: Sprache, Kultur, Mathematik, Physik und Chemie. Unsere Untersuchung deckt ein kontraintuitives Phänomen auf: Modelle scheitern oft an grundlegender Symbolerkennung, bestehen aber komplexe Reasoning-Aufgaben, was darauf hindeutet, dass sie sich auf linguistische Wahrscheinlichkeiten und nicht auf echte visuelle Wahrnehmung verlassen. Indem wir diese "kognitive Diskrepanz" aufdecken, beleuchten wir eine signifikante Lücke in den aktuellen KI-Fähigkeiten: die Schwierigkeit, die symbolischen Sprachen, die wissenschaftlichen Entdeckungen und abstraktem Denken zugrunde liegen, wirklich wahrzunehmen und zu verstehen. Diese Arbeit bietet einen Fahrplan für die Entwicklung rigoroserer, menschlich ausgerichteter intelligenter Systeme.
Die Entfernung von Videoobjekten zielt darauf ab, dynamische Zielobjekte und deren visuelle Effekte wie Verformungen, Schatten und Reflexionen zu beseitigen und dabei nahtlose Hintergründe wiederherzustellen. Aktuelle diffusionsbasierte Videoinpainting- und Objektentfernungsmethoden können die Objekte entfernen, haben jedoch oft Schwierigkeiten, diese Effekte zu löschen und kohärente Hintergründe zu synthetisieren. Neben methodischen Einschränkungen wird der Fortschritt weiterhin durch das Fehlen eines umfassenden Datensatzes behindert, der systematisch häufige Objekteffekte in verschiedenen Umgebungen für Training und Evaluation erfasst. Um dies zu beheben, stellen wir VOR (Video Object Removal) vor, einen groß angelegten Datensatz, der vielfältige gepaarte Videos bereitstellt. Jedes Paar besteht aus einem Video, in dem das Zielobjekt mit seinen Effekten vorhanden ist, und einem Gegenstück, in dem das Objekt und die Effekte fehlen, samt entsprechender Objektmasken. VOR umfasst 60.000 hochwertige Videopaare aus realen Aufnahmen und synthetischen Quellen, deckt fünf Effekttypen ab und erstreckt sich über eine breite Palette von Objektkategorien sowie komplexe, dynamische Multi-Objektszenen. Aufbauend auf VOR schlagen wir EffectErase vor, eine effektbewusste Methode zur Videoobjektentfernung, die das Einfügen von Videoobjekten als inverse Hilfsaufgabe innerhalb eines reziproken Lernschemas behandelt. Das Modell beinhaltet eine aufgabenbewusste Bereichslenkung, die das Lernen auf betroffene Bereiche fokussiert und flexibles Aufgabenwechseln ermöglicht. Zudem wird ein Einfüge-Entfernungs-Konsistenzziel verfolgt, das komplementäres Verhalten sowie gemeinsame Lokalisierung von Effektbereichen und strukturellen Hinweisen fördert. Auf VOR trainiert erzielt EffectErase in umfangreichen Experimenten überlegene Leistung und ermöglicht eine hochwertige Löschung von Videoobjekteffekten in diversen Szenarien.
Vision-Language Models (VLMs) haben sich als blind erwiesen, da sie ihre visuellen Eingaben oft nicht ausreichend nutzen, selbst bei Aufgaben, die visuelles Schlussfolgern erfordern. In dieser Arbeit zeigen wir, dass VLMs selektiv blind sind. Sie modulieren den Grad der Aufmerksamkeit, die sie auf visuelle Eingaben richten, basierend auf der sprachlichen Formulierung – selbst wenn alternative Formulierungen identisches visuelles Schlussfolgern erfordern. Indem wir visuelle Aufmerksamkeit als Messinstrument nutzen, quantifizieren wir, wie die Formulierung sowohl die Menge als auch die Verteilung der Aufmerksamkeit über das Bild hinweg verändert. Eingeschränkte Formulierungen wie Multiple-Choice- und Ja/Nein-Fragen führen zu deutlich geringerer Aufmerksamkeit für den Bildkontext im Vergleich zu offenen Formulierungen, reduzieren den Fokus auf aufgabenrelevante Regionen und lenken die Aufmerksamkeit auf nicht-informative Tokens. Wir zeigen weiter, dass diese fehlerhafte Aufmerksamkeitsverteilung die Hauptursache für verringerte Genauigkeit und Inkonsistenz über verschiedene Formulierungen hinweg ist. Aufbauend auf dieser mechanistischen Erkenntnis stellen wir eine leichtgewichtige Prompt-Tuning-Methode vor, die lernbare Tokens verwendet, um die robusten, visuell verankerten Aufmerksamkeitsmuster zu fördern, die in offenen Settings beobachtet werden. Dies verbessert die visuelle Verankerung und die Leistung across verschiedenen Formulierungen.
Simultanübersetzung von Sprache zu Sprache (SimulS2S) ist entscheidend für Echtzeit-Mehrsprachenkommunikation und wird zunehmend in Meeting- und Streaming-Plattformen integriert. Dennoch wird SimulS2S in der Forschung kaum untersucht, wobei aktuelle Lösungen oft auf ressourcenintensive Trainingsverfahren angewiesen sind und mit kurzen, vorsegmentierten Äußerungen arbeiten, was eine Generalisierung auf kontinuierliche Sprache verhindert. Um diese Lücke zu schließen, schlagen wir SimulU vor, die erste trainingsfreie Strategie für langfristige SimulS2S. SimulU nutzt History-Management und Sprachausgabeselektionsstrategien, die die Cross-Attention in vortrainierten End-to-End-Modellen ausnutzen, um sowohl die Eingabeverlaufshistorie als auch die Ausgabegenerierung zu steuern. Evaluationen auf MuST-C über 8 Sprachen zeigen, dass SimulU eine bessere oder vergleichbare Qualitäts-Latenz-Abwägung gegenüber starken kaskadierten Modellen erreicht. Durch den Wegfall spezieller Trainingseinheiten eröffnet SimulU einen vielversprechenden Weg zu End-to-End-SimulS2S in realistischen, langfristigen Szenarien.
Mehrstufige LLM-Agenten gewinnen zunehmend an Bedeutung für die Lösung komplexer, interaktiver Aufgaben, und Reinforcement Learning (RL) ist eine Schlüsselkomponente zur Verbesserung ihres langfristigen Verhaltens. Allerdings erfordert das RL-Training die Generierung einer großen Anzahl abgeschotteter Rollout-Trajektorien, und bestehende Infrastrukturen koppeln häufig die Rollout-Orchestrierung mit der Trainingsschleife, was Systeme schwer migrierbar und wartbar macht. Im Sinne der Philosophie von Rollout-as-a-Service stellen wir ProRL Agent vor, eine skalierbare Infrastruktur, die den vollständigen agentenbasierten Rollout-Lebenszyklus über einen API-Dienst bereitstellt. ProRL Agent bietet zudem standardisierte und erweiterbare Sandbox-Umgebungen, die verschiedene agentenbasierte Aufgaben in rootless HPC-Umgebungen unterstützen. Wir validieren ProRL Agent durch RL-Training für Aufgaben aus den Bereichen Softwareentwicklung, Mathematik, MINT-Fächer und Programmierung. ProRL Agent ist quelloffen und als Teil von NVIDIA NeMo Gym integriert.
Multimodale Large Language Models (MLLMs) haben beeindruckende Fortschritte bei der Verknüpfung von Vision und Sprache erzielt, tun sich jedoch nach wie vor schwer mit räumlichem Verständnis und perspektivenbewusstem Schlussfolgern. Jüngste Bestrebungen zielen darauf ab, die Eingaberepräsentationen mit geometrischen Hinweisen anzureichern, anstatt Modelle explizit zum Schlussfolgern im 3D-Raum zu befähigen. Wir stellen Loc3R-VLM vor, ein Framework, das 2D-Vision-Language-Models mit erweiterten 3D-Verständnisfähigkeiten auf Basis monokularer Videoeingaben ausstattet. Inspiriert von der menschlichen Raumkognition basiert Loc3R-VLM auf zwei gemeinsamen Zielen: globaler Layout-Rekonstruktion zur Erstellung einer ganzheitlichen Repräsentation der Szenenstruktur und expliziter Situationsmodellierung zur Verankerung der egozentrischen Perspektive. Diese Ziele bieten eine direkte räumliche Supervision, die sowohl Wahrnehmung als auch Sprache in einem 3D-Kontext verankert. Um geometrische Konsistenz und metrische Maßstabsausrichtung zu gewährleisten, nutzen wir leichte Kameraposen-Priors, die aus einem vortrainierten 3D-Foundation-Model extrahiert werden. Loc3R-VLM erzielt state-of-the-art Leistung in sprachbasierter Lokalisierung und übertrifft bestehende 2D- und videobasierte Ansätze auf Benchmarks für situiertes und allgemeines 3D-Frage-Antworten. Dies zeigt, dass unser räumliches Supervision-Framework ein starkes 3D-Verständnis ermöglicht. Projektseite: https://kevinqu7.github.io/loc3r-vlm
Die Regulierung des Importance Ratios ist entscheidend für die Trainingsstabilität von Group Relative Policy Optimization (GRPO) basierten Frameworks. Bisherige Regulierungsmethoden wie Hard Clipping leiden jedoch unter nicht-differenzierbaren Grenzen und Bereichen mit verschwindenden Gradienten, was die Gradiententreue beeinträchtigt. Darüber hinaus fehlt diesen Methoden ein hazard-sensibler Mechanismus, um extreme Abweichungen adaptiv zu unterdrücken, was den Optimierungsprozess anfällig für abrupte Policy-Verschiebungen macht. Zur Lösung dieser Probleme schlagen wir Modulated Hazard-aware Policy Optimization (MHPO) vor, ein neuartiges Framework für robustes und stabiles Reinforcement Learning. Das vorgeschlagene MHPO führt einen Log-Fidelity-Modulator (LFM) ein, der unbeschränkte Importance Ratios in einen beschränkten, differenzierbaren Bereich abbildet. Dieser Mechanismus verhindert wirksam, dass Ausreißer-Tokens mit hoher Varianz die Loss-Landschaft destabilisieren, und gewährleistet gleichzeitig globale Gradientenstabilität. Ergänzend integriert eine Entkoppelte Hazard-Strafe (DHP) kumulative Hazard-Funktionen aus der Überlebenszeitanalyse, um positive und negative Policy-Verschiebungen unabhängig zu regulieren. Durch die Gestaltung der Optimierungslandschaft mit hazard-sensiblen Strafen erreicht MHPO eine feinabgestimmte Regulierung asymmetrischer Policy-Verschiebungen, mildert gleichzeitig Mode Collapse durch Überexpansion und verhindert Policy-Erosion durch katastrophale Kontraktion innerhalb einer stabilisierten Trust Region. Umfangreiche Auswertungen auf diversen Reasoning-Benchmarks für textbasierte und visuell-sprachliche Aufgaben zeigen, dass MHPO bestehende Methoden konsistent übertrifft, eine überlegene Leistung erzielt und gleichzeitig die Trainingsstabilität erheblich verbessert.
Dieser technische Bericht stellt MOSS-TTS vor, ein Sprachgenerierungs-Foundation-Modell, das auf einem skalierbaren Ansatz basiert: diskrete Audio-Token, autoregressive Modellierung und Training mit großen Datenmengen. Aufbauend auf MOSS-Audio-Tokenizer, einem kausalen Transformer-Tokenizer, der 24-kHz-Audio mit variabler Bitrate (RVQ) und vereinheitlichten semantisch-akustischen Repräsentationen auf 12,5 Bilder pro Sekunde komprimiert, veröffentlichen wir zwei komplementäre Generatoren: MOSS-TTS, das strukturelle Einfachheit, Skalierbarkeit und den Einsatz für lange Kontexte bzw. Steuerungsaufgaben betont, und MOSS-TTS-Local-Transformer, das ein frame-lokales autoregressives Modul für höhere Modellierungseffizienz, bessere Sprechererhaltung und kürzere Verzögerung bis zur ersten Audioausgabe einführt. In multilingualen und offenen Domänen unterstützt MOSS-TTS Zero-Shot-Stimmklonierung, Token-gesteuerte Dauer-Kontrolle, Phonem-/Pinyin-gesteuerte Aussprachekontrolle, fließenden Code-Switching und stabile Langform-Generierung. Dieser Bericht fasst das Design, das Trainingsverfahren und die empirischen Eigenschaften der veröffentlichten Modelle zusammen.
Die Fähigkeit, Szenen mit einstellbarer Detailtreue aus einem einzigen Modell zu rendern, bekannt als Level of Detail (LoD), ist entscheidend für den praktischen Einsatz von 3D Gaussian Splatting (3DGS). Bestehende diskrete LoD-Methoden bieten nur eine begrenzte Anzahl von Betriebspunkten, während neuere kontinuierliche LoD-Ansätze zwar eine glattere Skalierung ermöglichen, aber oft unter einer merklichen Qualitätsverschlechterung bei voller Kapazität leiden, was LoD zu einer kostspieligen Designentscheidung macht. Wir stellen Matryoshka Gaussian Splatting (MGS) vor, ein Trainingsframework, das kontinuierliches LoD für Standard-3DGS-Pipelines ermöglicht, ohne die Renderingqualität bei voller Kapazität zu opfern. MGS lernt eine einzige geordnete Menge von Gaußfunktionen, bei der das Rendern eines beliebigen Präfixes, also der ersten k Splats, eine kohärente Rekonstruktion erzeugt, deren Detailtreue sich glatt mit steigendem Budget verbessert. Unser zentraler Ansatz ist das Training mit stochastischem Budget: Bei jeder Iteration wird ein zufälliges Splat-Budget abgetastet und sowohl das entsprechende Präfix als auch die vollständige Menge optimiert. Diese Strategie erfordert nur zwei Vorwärtsschritte und führt keine Architekturänderungen ein. Experimente über vier Benchmarks und sechs Baseline-Methoden zeigen, dass MGS die Leistung bei voller Kapazität seines Backbones erreicht und gleichzeitig einen kontinuierlichen Geschwindigkeits-Qualitäts-Kompromiss aus einem einzigen Modell ermöglicht. Umfangreiche Ablationstudien zu Ordnungsstrategien, Trainingszielen und Modellkapazität validieren die Designs weiter.
Vision-Language-Modelle (VLMs), die für die Fernerkundung adaptiert werden, sind stark auf domänenspezifische Bild-Text-Aufsicht angewiesen. Dennoch bleiben hochwertige Annotationen für Satelliten- und Luftbilder knapp und teuer in der Erstellung. Gängige Pseudo-Labeling-Pipelines schließen diese Lücke, indem sie Wissen aus großen Frontier-Modellen destillieren. Diese Abhängigkeit von großen Lehrermodellen ist jedoch kostspielig, limitiert die Skalierbarkeit und begrenzt die erreichbare Leistung auf das Niveau des Lehrermodells. Wir schlagen OSMDA vor: ein eigenständiges Domain-Adaptation-Framework, das diese Abhängigkeit beseitigt. Unsere zentrale Erkenntnis ist, dass ein leistungsfähiges Basis-VLM als eigene Annotation-Engine dienen kann: Indem wir Luftbilder mit gerenderten OpenStreetMap (OSM)-Kartenkacheln kombinieren, nutzen wir die optische Zeichenerkennung und das Diagrammverständnis des Modells, um Bildunterschriften zu generieren, die durch die umfangreichen Metadaten von OSM angereichert werden. Das Modell wird anschließend mit dem entstandenen Korpus und ausschließlich Satellitenbildern feinjustiert, was zu OSMDA-VLM führt – einem domain-adaptierten VLM, das weder manuelle Beschriftung noch stärkere externe Modelle benötigt. Wir führen umfassende Evaluationen durch, die 10 Benchmarks für Bild-Text-zu-Text-Aufgaben umfassen und Vergleiche mit 9 wettbewerbsfähigen Baseline-Methoden ziehen. Bei gleichem Anteil mit echten Daten erzielt unsere Methode state-of-the-art Ergebnisse, ist dabei aber erheblich kostengünstiger zu trainieren als lehrerabhängige Alternativen. Diese Ergebnisse legen nahe, dass bei einem starken Foundation-Model die Ausrichtung an crowdsourcing-basierten Geodaten ein praktischer und skalierbarer Weg für die Domain-Adaptation in der Fernerkundung ist. Datensatz und Modellgewichte werden öffentlich verfügbar gemacht.
Die Fähigkeit, mathematische Objekte präzise abzuleiten, ist eine Kernanforderung für nachgelagerte MINT-Anwendungen, einschließlich Mathematik, Physik und Chemie, bei denen das logische Schließen in formal strukturierten Ausdrücken münden muss. Dennoch stützen sich aktuelle Evaluierungen mathematischen und naturwissenschaftlichen Denkens in Sprachmodellen stark auf vereinfachte Antwortformate wie numerische Werte oder Multiple-Choice-Optionen, was der Bequemlichkeit automatisierter Bewertung geschuldet ist. In diesem Artikel leisten wir drei Beiträge zur Verbesserung des logischen Schließens über mathematische Objekte: (i) Wir erstellen und veröffentlichen Trainingsdaten und Benchmarks für die Ableitung mathematischer Objekte, die Principia-Suite; (ii) Wir stellen Trainingsmethoden mit starken LLM-Juroren und Verifizierern bereit und zeigen, dass On-Policy-Jury-Training die Leistung steigert; (iii) Wir demonstrieren, wie On-Policy-Training auch zur Skalierung des Testzeit-Rechenaufwands durch Aggregation genutzt werden kann. Wir stellen fest, dass starke Sprachmodelle wie Qwen3-235B und o3 bei Principia Schwierigkeiten haben, während unsere Trainingsmethoden signifikante Verbesserungen über verschiedene LLM-Backbones hinweg erzielen und gleichzeitig die Ergebnisse bei bestehenden numerischen und MCQA-Aufgaben verbessern, was eine formatübergreifende Generalisierung der Denkfähigkeiten demonstriert.
Wir stellen MultiTempBench vor, einen mehrsprachigen Benchmark für zeitliches Schließen, der drei Aufgaben umfasst: Datumsarithmetik, Zeitzonenumrechnung und Extraktion zeitlicher Relationen in fünf Sprachen (Englisch, Deutsch, Chinesisch, Arabisch und Hausa) und über mehrere Kalenderkonventionen hinweg (gregorianisch, hijri und chinesisch-lunar). MultiTempBench enthält 15.000 Beispiele, die durch Übersetzung von 750 kuratierten englischen Fragen und deren Erweiterung um kontrollierte Datumsformat-Varianten erstellt wurden. Wir evaluieren 20 LLMs und führen das mehrsprachige Date Fragmentation Ratio (mDFR) ein, das mit menschlichen Schweregrad-Bewertungen kalibriert wurde, zusammen mit geometrischen Probing-Analysen interner temporaler Repräsentationen. Wir stellen fest, dass die Tokenisierungsqualität temporaler Artefakte ein ressourcenabhängiger Engpass ist: In ressourcenarmen Sprachen und selteneren Kalenderformaten stört Fragmentierung die Trennung von Jahr/Monat/Tag und die Genauigkeit bricht ein, während hochressourcierte Umgebungen oft robust gegenüber ziffernweiser Aufteilung sind. Jenseits der Tokenisierung zeigt eine gekreuzte gemischte Regressionsanalyse, dass temporale Linearität in ressourcenstarken Sprachen der stärkste Prädiktor für temporales Schließen ist, während Fragmentierung in ressourcenarmen Sprachen der stärkere Prädiktor ist. Code ist verfügbar unter: https://github.com/gagan3012/mtb
Die Identifizierung potenzieller Objekte ist entscheidend für die Objekterkennung und -analyse in verschiedenen Computer-Vision-Anwendungen. Bisherige Methoden lokalisieren potenzielle Objekte typischerweise durch den Rückgriff auf Beispielbilder, vordefinierte Kategorien oder textuelle Beschreibungen. Ihre Abhängigkeit von Bild- und Textprompts schränkt jedoch oft die Flexibilität ein und begrenzt die Anpassungsfähigkeit in realen Szenarien. In diesem Beitrag stellen wir ein neuartiges Prompt-freies universelles Region Proposal Network (PF-RPN) vor, das potenzielle Objekte ohne externe Prompts identifiziert. Zunächst führt das Sparse Image-Aware Adapter (SIA)-Modul eine initiale Lokalisierung potenzieller Objekte unter Verwendung einer lernbaren Query-Embedding durch, die dynamisch mit visuellen Merkmalen aktualisiert wird. Anschließend identifiziert das Cascade Self-Prompt (CSP)-Modul die verbleibenden potenziellen Objekte, indem es die selbst-gepimpte lernbare Embedding nutzt und eigenständig informative visuelle Merkmale in kaskadierender Weise aggregiert. Schließlich erleichtert das Centerness-Guided Query Selection (CG-QS)-Modul die Auswahl hochwertiger Query-Embeddings unter Verwendung eines Centerness-Bewertungsnetzwerks. Unsere Methode kann mit begrenzten Daten (z.B. 5 % der MS-COCO-Daten) optimiert und direkt auf verschiedene Anwendungsbereiche der Objekterkennung zur Identifizierung potenzieller Objekte ohne Feinabstimmung angewendet werden, wie z.B. Unterwasser-Objekterkennung, industrielle Fehlererkennung und Objekterkennung in Fernerkundungsbildern. Experimentelle Ergebnisse über 19 Datensätze validieren die Wirksamkeit unserer Methode. Der Code ist verfügbar unter https://github.com/tangqh03/PF-RPN.
Wir stellen COT-FM vor, ein allgemeines Framework, das die Wahrscheinlichkeitspfade im Flow Matching (FM) neu gestaltet, um eine schnellere und zuverlässigere Generierung zu erreichen. FM-Modelle erzeugen oft gekrümmte Trajektorien aufgrund von zufälligen oder batchweisen Kopplungen, was den Diskretisierungsfehler erhöht und die Probenqualität verringert. COT-FM behebt dies, indem Zielproben geclustert und jedem Cluster eine dedizierte Quellverteilung zugewiesen wird, die durch Umkehrung vortrainierter FM-Modelle gewonnen wird. Diese Divide-and-Conquer-Strategie führt zu einer genaueren lokalen Transportabbildung und signifikant geraderen Vektorfeldern, alles ohne Änderung der Modellarchitektur. Als Plug-and-Play-Ansatz beschleunigt COT-FM durchgängig die Erzeugung von Stichproben und verbessert die Generierungsqualität in 2D-Datensätzen, Bildgenerierungs-Benchmarks und Robotermanipulationsaufgaben.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei der maschinellen Übersetzung hochressourcierter Sprachpaare gezeigt, doch ihre Leistung bei der Übersetzung ressourcenarmer Sprachen hinkt immer noch hinterher. Bestehende Nachtrainierungsmethoden sind stark auf hochwertige parallele Daten angewiesen, die für ressourcenarme Sprachen oft knapp oder nicht verfügbar sind. In diesem Artikel stellen wir WALAR vor, eine Verstärkungslern-Methode, die ausschließlich monolinguale Texte nutzt, um die Übersetzungsfähigkeiten von LLMs für eine Vielzahl ressourcenarmer Sprachen zu verbessern und gleichzeitig ihre Leistung bei hochressourcierten Sprachen beizubehalten. Unser zentraler Ansatz basiert auf der Beobachtung von Fehlermustern (oder "Lücken") in bestehenden quellenbasierten multilingualen Qualitätsbewertungsmodellen (QE). Verstärkungslernen (RL) mit diesen QE-Modellen neigt dazu, solche Lücken zu verstärken, was zu schlechteren multilingualen LLMs führt. Wir entwickeln Techniken, einschließlich Wort- und Sprachabgleich, um diese Lücken in der WALAR-Belohnungsfunktion für das RL-Training zu reduzieren. Wir haben kontinuierlich ein LLM trainiert, das Übersetzungen für 101 Sprachen unterstützt, unter Verwendung von WALAR. Die Experimente zeigen, dass unser neues Modell LLaMAX, eines der leistungsstärksten quelloffenen multilingualen LLMs, auf dem Flores-101-Datensatz bei 1400 Sprachrichtungen deutlich übertrifft.
Das Verständnis und die Generierung von 3D-Objekten als Kompositionen bedeutungsvoller Teile ist grundlegend für die menschliche Wahrnehmung und Denkweise. Die meisten Text-zu-3D-Methoden übersehen jedoch die semantische und funktionale Struktur von Teilen. Während neuere teilbewusste Ansätze eine Zerlegung einführen, bleiben sie weitgehend geometriefokussiert, entbehren einer semantischen Fundierung und modellieren nicht, wie Teile mit Textbeschreibungen übereinstimmen oder welche Beziehungen zwischen ihnen bestehen. Wir stellen DreamPartGen vor, einen Framework für semantisch fundierte, teilbewusste Text-zu-3D-Generierung. DreamPartGen führt Duplex Part Latents (DPLs) ein, die gleichzeitig die Geometrie und das Erscheinungsbild jedes Teils modellieren, sowie Relational Semantic Latents (RSLs), die aus der Sprache abgeleitete Abhängigkeiten zwischen den Teilen erfassen. Ein synchronisierter Co-Denoising-Prozess erzwingt gegenseitige geometrische und semantische Konsistenz und ermöglicht so eine kohärente, interpretierbare und textabgestimmte 3D-Synthese. In mehreren Benchmarks erzielt DreamPartGen state-of-the-art Leistungen in geometrischer Treue und Text-Form-Übereinstimmung.
Die logische Anomalieerkennung in der industriellen Inspektion bleibt aufgrund von Variationen im visuellen Erscheinungsbild (z.B. Hintergrundunordnung, Beleuchtungsänderungen und Unschärfe) eine Herausforderung, da diese visuell-zentrierte Detektoren oft davon ablenken, Verstöße auf Regelebene zu identifizieren. Bestehende Benchmarks bieten jedoch selten kontrollierte Rahmenbedingungen, in denen logische Zustände festgelegt sind, während solche Störfaktoren variieren. Um diese Lücke zu schließen, stellen wir VID-AD vor, einen Datensatz zur logischen Anomalieerkennung unter visuell induzierten Ablenkungen. Er umfasst 10 Fertigungsszenarien und fünf Aufnahmebedingungen, insgesamt 50 One-Class-Aufgaben und 10.395 Bilder. Jedes Szenario wird durch zwei logische Constraints definiert, die aus Menge, Länge, Typ, Platzierung und Relation ausgewählt sind, wobei Anomalien sowohl einzelne Constraint-Verstöße als auch kombinierte Verstöße umfassen. Wir schlagen weiterhin ein sprachbasiertes Anomalieerkennungsframework vor, das ausschließlich auf Textbeschreibungen normaler Bilder basiert. Durch kontrastives Lernen mit positiven Texten und widerspruchsbasierten negativen Texten, die aus diesen Beschreibungen synthetisiert werden, lernt unsere Methode Embeddings, die logische Attribute anstelle von Low-Level-Merkmalen erfassen. Umfangreiche Experimente zeigen konsistente Verbesserungen gegenüber Baseline-Methoden in allen evaluierten Settings. Der Datensatz ist verfügbar unter: https://github.com/nkthiroto/VID-AD.
Das Persische stellt einzigartige Herausforderungen für das Audioverständnis durch seine klassische Poesie, traditionelle Musik und allgegenwärtige Code-Switching-Phänomene dar – keine davon wird von bestehenden Benchmarks erfasst. Wir stellen PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark) vor, den ersten Benchmark zur Bewertung großer Audio-Sprach-Modelle für die persische Sprache und Kultur. Er umfasst 16 Aufgaben und über 8.000 Beispiele aus den Bereichen Sprachverständnis, paralinguistische Analyse und kulturelles Audioverständnis. Zehn Aufgaben werden neu eingeführt, darunter die Erkennung von Versmaß und Stil in der Poesie, das Verständnis traditioneller persischer Musik und die Detektion von Code-Switching. Textbasierte Baseline-Modelle schneiden durchgängig besser ab als audio-basierte Ansätze, was darauf hindeutet, dass Modelle möglicherweise keine audiospezifischen Informationen über das hinaus nutzen, was die Transkription allein liefert. Kulturell verwurzelte Aufgaben offenbaren einen qualitativ distincten Fehlermodus: Alle Modelle zeigen unabhängig von ihrer Größe nahezu zufällige Ergebnisse bei der Vazn-Erkennung, was darauf hindeutet, dass die prosodische Wahrnehmung die Reichweite aktueller Modelle übersteigt. Der Datensatz ist öffentlich verfügbar unter https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.