papers.description
In diesem Bericht stellen wir Ovis-U1 vor, ein einheitliches Modell mit 3 Milliarden Parametern, das multimodales Verständnis, Text-zu-Bild-Generierung und Bildbearbeitungsfähigkeiten integriert. Aufbauend auf der Grundlage der Ovis-Serie kombiniert Ovis-U1 einen diffusionsbasierten visuellen Decoder mit einem bidirektionalen Token-Refiner, wodurch Bildgenerierungsaufgaben ermöglicht werden, die mit führenden Modellen wie GPT-4o vergleichbar sind. Im Gegensatz zu einigen früheren Modellen, die ein eingefrorenes MLLM für Generierungsaufgaben verwenden, nutzt Ovis-U1 einen neuen einheitlichen Trainingsansatz, der von einem Sprachmodell ausgeht. Im Vergleich zum Training ausschließlich auf Verständnis- oder Generierungsaufgaben führt das einheitliche Training zu einer besseren Leistung, was die Verbesserung durch die Integration dieser beiden Aufgaben demonstriert. Ovis-U1 erreicht eine Punktzahl von 69,6 auf dem OpenCompass Multi-modal Academic Benchmark und übertrifft damit aktuelle State-of-the-Art-Modelle wie Ristretto-3B und SAIL-VL-1.5-2B. Bei der Text-zu-Bild-Generierung erzielt es hervorragende Werte von 83,72 und 0,89 auf den Benchmarks DPG-Bench und GenEval. Für die Bildbearbeitung erreicht es 4,00 und 6,42 auf den Benchmarks ImgEdit-Bench und GEdit-Bench-EN. Als erste Version der Ovis-einheitlichen Modellserie erweitert Ovis-U1 die Grenzen des multimodalen Verständnisses, der Generierung und der Bearbeitung.
Jüngste Fortschritte im Bereich des Reinforcement Learning haben gezeigt, dass Sprachmodelle durch das Training an Aufgaben mit überprüfbaren Belohnungen anspruchsvolle Denkfähigkeiten entwickeln können. Diese Ansätze sind jedoch auf von Menschen kuratierte Problem-Antwort-Paare und domänenspezifische Belohnungsgestaltung angewiesen. Wir stellen SPIRAL vor, ein Selbstspiel-Framework, in dem Modelle durch das Spielen von Mehrrunden-Nullsummenspielen gegen sich ständig verbessernde Versionen von sich selbst lernen, wodurch die Notwendigkeit menschlicher Aufsicht entfällt. Durch Selbstspiel generiert SPIRAL einen unendlichen Lehrplan von zunehmend anspruchsvollen Problemen, da die Modelle sich ständig an stärkere Gegner anpassen müssen. Um dieses Selbstspiel-Training in großem Maßstab zu ermöglichen, implementieren wir ein vollständig onlinefähiges, mehrrundiges, multi-agenten-basiertes Reinforcement-Learning-System für LLMs und schlagen die rollenbasierte Vorteilsschätzung (Role-Conditioned Advantage Estimation, RAE) vor, um das Multi-Agenten-Training zu stabilisieren. Mit SPIRAL erzeugt das Selbstspiel in Nullsummenspielen Denkfähigkeiten, die breit übertragbar sind. Das Training von Qwen3-4B-Base allein an Kuhn Poker führt zu einer Verbesserung von 8,6 % in Mathematik und 8,4 % im allgemeinen Denken, was das Supervised Fine-Tuning (SFT) auf 25.000 Experten-Spielverläufe übertrifft. Analysen zeigen, dass diese Übertragung durch drei kognitive Muster erfolgt: systematische Zerlegung, Erwartungswertberechnung und fallweise Analyse. Das Training an mehreren Spielen (TicTacToe, Kuhn Poker, Simple Negotiation) steigert die Leistung weiter, da jedes Spiel unterschiedliche Denkstärken entwickelt. Die Anwendung von SPIRAL auf ein leistungsstarkes Denkmodell (DeepSeek-R1-Distill-Qwen-7B) kann immer noch zu einer durchschnittlichen Verbesserung von 2,0 % führen. Diese Ergebnisse zeigen, dass Nullsummenspiele auf natürliche Weise übertragbare Denkfähigkeiten entwickeln, was eine vielversprechende Richtung für die autonome Entwicklung von Denkfähigkeiten aufzeigt.
Wir stellen Calligrapher vor, ein neuartiges, diffusionsbasiertes Framework, das fortschrittliche Textanpassung innovativ mit künstlerischer Typografie für digitale Kalligrafie und Designanwendungen verbindet. Um die Herausforderungen der präzisen Stilkontrolle und Datenabhängigkeit bei der typografischen Anpassung zu bewältigen, integriert unser Framework drei wesentliche technische Beiträge. Erstens entwickeln wir einen Selbst-Distillationsmechanismus, der das vortrainierte Text-zu-Bild-Generierungsmodell selbst zusammen mit dem großen Sprachmodell nutzt, um automatisch einen stilzentrierten Typografie-Benchmark zu erstellen. Zweitens führen wir ein lokalisiertes Stil-Injektionsframework über einen trainierbaren Stil-Encoder ein, der sowohl Qformer als auch lineare Schichten umfasst, um robuste Stilmerkmale aus Referenzbildern zu extrahieren. Ein In-Context-Generierungsmechanismus wird ebenfalls eingesetzt, um Referenzbilder direkt in den Denoising-Prozess einzubetten und so die präzise Ausrichtung der Zielstile weiter zu verbessern. Umfangreiche quantitative und qualitative Bewertungen über verschiedene Schriftarten und Designkontexte hinweg bestätigen die genaue Reproduktion komplexer stilistischer Details und die präzise Glyphenpositionierung durch Calligrapher. Durch die Automatisierung hochwertiger, visuell konsistenter Typografie übertrifft Calligrapher traditionelle Modelle und befähigt kreative Praktiker in den Bereichen digitale Kunst, Branding und kontextbezogenes typografisches Design.
Die quadratische Komplexität von vollständigen Aufmerksamkeitsmechanismen stellt ein erhebliches Hindernis für Video-Diffusionsmodelle (VDMs) dar, die darauf abzielen, langandauernde, hochauflösende Videos zu generieren. Obwohl verschiedene spärliche Aufmerksamkeitsmethoden vorgeschlagen wurden, sind viele als trainingsfreie Inferenzbeschleuniger konzipiert oder erfassen die einzigartigen räumlich-zeitlichen Eigenschaften von Videodaten bei nativem Training nicht optimal. Dieses Papier stellt Video Mixture of Block Attention (VMoBA) vor, einen neuartigen spärlichen Aufmerksamkeitsmechanismus, der speziell für VDMs angepasst ist. Motiviert durch eine detaillierte Analyse von Aufmerksamkeitsmustern in vortrainierten Video-Transformatoren, die starke räumlich-zeitliche Lokalität, variierende Wichtigkeit von Abfragen und kopf-spezifische Konzentrationsniveale offenbarte, verbessert VMoBA das ursprüngliche MoBA-Framework mit drei wesentlichen Modifikationen: (1) ein schichtenweise rekursives Blockpartitionierungsschema (1D-2D-3D), um sich dynamisch an verschiedene räumlich-zeitliche Aufmerksamkeitsmuster anzupassen und die Effizienz zu steigern; (2) globale Blockauswahl, um die wichtigsten Abfrage-Schlüssel-Block-Interaktionen über einen gesamten Aufmerksamkeitskopf hinweg zu priorisieren; und (3) schwellenwertbasierte Blockauswahl, um die Anzahl der beachteten Blöcke dynamisch basierend auf ihrer kumulativen Ähnlichkeit zu bestimmen. Umfangreiche Experimente zeigen, dass VMoBA das Training von VDMs auf längeren Sequenzen erheblich beschleunigt, mit einer 2,92-fachen FLOPs- und 1,48-fachen Latenzverbesserung, während es eine vergleichbare oder sogar überlegene Generierungsqualität gegenüber vollständiger Aufmerksamkeit erreicht. Darüber hinaus zeigt VMoBA eine wettbewerbsfähige Leistung bei trainingsfreier Inferenz und bietet eine 2,40-fache FLOPs- und 1,35-fache Latenzverbesserung für die Generierung hochauflösender Videos.
Jüngste Fortschritte in der Schätzung des optischen Flusses haben die Genauigkeit priorisiert, jedoch auf Kosten eines steigenden GPU-Speicherverbrauchs, insbesondere bei hochauflösenden (FullHD) Eingaben. Wir stellen MEMFOF vor, eine speichereffiziente Methode zur Schätzung des optischen Flusses über mehrere Frames, die einen günstigen Kompromiss zwischen der Schätzung über mehrere Frames und dem GPU-Speicherverbrauch findet. Bemerkenswerterweise benötigt MEMFOF nur 2,09 GB GPU-Speicher zur Laufzeit für 1080p-Eingaben und 28,5 GB während des Trainings, was unsere Methode einzigartig positioniert, um nativ in 1080p trainiert zu werden, ohne dass ein Zuschneiden oder Herunterskalieren erforderlich ist. Wir überprüfen systematisch Designentscheidungen von RAFT-ähnlichen Architekturen, integrieren reduzierte Korrelationsvolumina und hochauflösende Trainingsprotokolle zusammen mit der Schätzung über mehrere Frames, um eine state-of-the-art Leistung über mehrere Benchmarks zu erreichen und gleichzeitig den Speicherbedarf erheblich zu reduzieren. Unsere Methode übertrifft ressourcenintensivere Alternativen sowohl in der Genauigkeit als auch in der Laufzeiteffizienz, was ihre Robustheit für die Flussschätzung bei hohen Auflösungen bestätigt. Zum Zeitpunkt der Einreichung belegt unsere Methode den ersten Platz auf dem Spring-Benchmark mit einer 1-Pixel (1px) Outlier-Rate von 3,289, führt bei Sintel (clean) mit einem Endpunktfehler (EPE) von 0,963 und erreicht den besten Fl-all-Fehler auf KITTI-2015 bei 2,94%. Der Code ist verfügbar unter https://github.com/msu-video-group/memfof.
Das Training robuster und generalisierbarer Belohnungsmodelle für menschliche visuelle Präferenzen ist entscheidend, um Text-zu-Bild- und Text-zu-Video-Generierungsmodelle mit menschlichen Absichten in Einklang zu bringen. Allerdings scheitern aktuelle Belohnungsmodelle oft an der Generalisierung, und überwachtes Feinabstimmen führt zu Auswendiglernen, was komplexe Annotationspipelines erfordert. Während Reinforcement Learning (RL), insbesondere Group Relative Policy Optimization (GRPO), die Generalisierung verbessert, decken wir einen zentralen Fehlermodus auf: Es kommt zu einem signifikanten Rückgang der Schlussfolgerungsgenauigkeit, wenn der Schlussfolgerungspfad eines Modells dem eines unabhängigen, eingefrorenen Vision-Sprache-Modells („Listener“), das dieselbe Ausgabe bewertet, widerspricht. Um dies zu adressieren, führen wir ein listener-augmentiertes GRPO-Framework ein. Hier bewertet der Listener den Schlussfolgerungspfad des Reasoners erneut, um einen dichten, kalibrierten Konfidenzscore zu liefern, der das RL-Belohnungssignal formt. Dies ermutigt den Reasoner nicht nur, korrekt zu antworten, sondern auch Erklärungen zu liefern, die für ein unabhängiges Modell überzeugend sind. Unser listener-geformtes Belohnungsschema erreicht die beste Genauigkeit auf dem ImageReward-Benchmark (67,4 %), verbessert die Out-of-Distribution (OOD)-Leistung auf einem groß angelegten menschlichen Präferenzdatensatz (1,2 Mio. Stimmen, bis zu +6 % gegenüber einem naiven Reasoner) signifikant und reduziert Widersprüche in der Schlussfolgerung im Vergleich zu starken GRPO- und SFT-Baselines. Diese Ergebnisse zeigen, dass listener-basierte Belohnungen einen skalierbaren, dateneffizienten Weg bieten, um Vision-Sprache-Modelle mit nuancierten menschlichen Präferenzen in Einklang zu bringen. Wir werden unser Schlussfolgerungsmodell hier veröffentlichen: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
Wir schlagen ein neuartiges Paradigma für die Gestaltung von Prompts vor, das die herkömmliche Weisheit beim Prompting von großen Sprachmodellen (LLMs) herausfordert. Während die herkömmliche Weisheit gut durchdachte Anweisungen und Demonstrationen für In-Context-Learning (ICL) priorisiert, zeigen wir, dass das Beschneiden zufälliger Demonstrationen zu scheinbar inkohärentem „Kauderwelsch“ die Leistung über diverse Aufgaben hinweg bemerkenswert verbessern kann. Bemerkenswerterweise übertrifft oder erreicht das „Kauderwelsch“ stets den Stand der Technik bei automatischen Prompt-Optimierungstechniken und erzielt erhebliche Gewinne unabhängig von der Ausrichtung des LLMs. Dennoch ist die Entdeckung einer effektiven Beschneidungsstrategie nicht trivial, da bestehende Attributionsmethoden und Prompt-Kompressionsalgorithmen keine robusten Ergebnisse liefern können, geschweige denn die menschliche Intuition. In dieser Hinsicht schlagen wir ein selbstentdeckendes Prompt-Optimierungsframework vor, PromptQuine, ein evolutionäres Suchframework, das automatisch nach der Beschneidungsstrategie sucht und dabei nur geringe Datenmengen verwendet. Ähnlich wie die emergenten Komplexitäten in der Natur – wie Symbiose und Selbstorganisation –, die als Reaktion auf Ressourcenbeschränkungen entstehen, entwickelt und verfeinert unser Framework unkonventionelle, aber äußerst effektive Prompts, indem es nur die im Kontext vorhandenen Tokens nutzt. Wir demonstrieren seine Wirksamkeit über Klassifizierungs-, Multiple-Choice-Fragebeantwortungs-, Generierungs- und mathematische Denkaufgaben hinweg bei verschiedenen LLMs, während es eine angemessene Laufzeiteffizienz erreicht. Wir hoffen, dass unsere Erkenntnisse mechanistische Studien zum In-Context-Learning leiten können und einen Aufruf zum Handeln darstellen, um den Weg für offenere Suchalgorithmen für effektiveres LLM-Prompting zu ebnen.
Das Feinabstimmen von LLMs ist sowohl rechen- als auch speicherintensiv. Während parameter-effiziente Feinabstimmungsmethoden wie QLoRA und DoRA die Anzahl der trainierbaren Parameter reduzieren und den Speicherverbrauch senken, verringern sie nicht die Rechenkosten. In einigen Fällen können sie sogar die Feinabstimmung verlangsamen. In diesem Artikel stellen wir SparseLoRA vor, eine Methode, die die Feinabstimmung von LLMs durch kontextuelle Sparsität beschleunigt. Wir schlagen einen leichten, trainingsfreien SVD-Sparsitäts-Schätzer vor, der dynamisch eine spärliche Teilmenge von Gewichten für die Verlust- und Gradientenberechnung auswählt. Zudem analysieren und adressieren wir systematisch die Empfindlichkeit über Schichten, Tokens und Trainingsschritte hinweg. Unsere experimentellen Ergebnisse zeigen, dass SparseLoRA die Rechenkosten um bis zu das 2,2-fache reduziert und eine gemessene Beschleunigung von bis zu dem 1,6-fachen erreicht, während die Genauigkeit über verschiedene Downstream-Aufgaben hinweg erhalten bleibt, einschließlich gesundem Menschenverstand und arithmetischem Denken, Code-Generierung und Befolgen von Anweisungen.
Tiefenbilder, die von Time-of-Flight (ToF)-Sensoren erfasst werden, sind anfällig für Rauschen und erfordern eine Rauschunterdrückung für zuverlässige nachgelagerte Anwendungen. Bisherige Arbeiten konzentrieren sich entweder auf die Einzelbildverarbeitung oder führen eine Mehrbildverarbeitung durch, ohne Tiefenvariationen an entsprechenden Pixeln über die Bilder hinweg zu berücksichtigen, was zu unerwünschter zeitlicher Inkonsistenz und räumlicher Mehrdeutigkeit führt. In diesem Artikel schlagen wir ein neuartiges ToF-Tiefenrauschunterdrückungsnetzwerk vor, das eine bewegungsinvariante Graph-Fusion nutzt, um gleichzeitig die zeitliche Stabilität und die räumliche Schärfe zu verbessern. Insbesondere zeigen Graphstrukturen trotz Tiefenverschiebungen über die Bilder hinweg eine zeitliche Selbstähnlichkeit, was eine bildübergreifende geometrische Aufmerksamkeit für die Graph-Fusion ermöglicht. Durch die Einbeziehung eines Bildglättungspriors auf dem fusionierten Graphen und eines Datenkonsistenzterms, der aus der ToF-Rauschverteilung abgeleitet wird, formulieren wir ein Maximum-a-posteriori-Problem für die ToF-Rauschunterdrückung. Schließlich wird die Lösung in iterative Filter entfaltet, deren Gewichte adaptiv aus der graphbasierten geometrischen Aufmerksamkeit gelernt werden, wodurch ein leistungsstarkes und dennoch interpretierbares Netzwerk entsteht. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren in Bezug auf Genauigkeit und Konsistenz auf dem synthetischen DVToF-Datensatz state-of-the-art Leistung erzielt und eine robuste Generalisierung auf dem realen Kinectv2-Datensatz aufweist. Der Quellcode wird unter https://github.com/davidweidawang/GIGA-ToF veröffentlicht.
Die Fähigkeit, Informationen aus mehreren Modalitäten zu verarbeiten und schrittweise durch sie zu schlussfolgern, bleibt eine entscheidende Herausforderung bei der Weiterentwicklung der künstlichen Intelligenz. Bisher konzentrieren sich bestehende Benchmarks für logisches Denken jedoch entweder auf textbasiertes Schließen oder verwenden multimodale Fragen, die durch direktes Abrufen von Informationen aus einer nicht-textuellen Modalität beantwortet werden können. Somit bleibt komplexes logisches Denken in multimodalen Domänen weitgehend unverstanden. Hier präsentieren wir MARBLE, einen anspruchsvollen Benchmark für multimodales logisches Denken, der darauf abzielt, multimodale Sprachmodelle (MLLMs) in ihrer Fähigkeit zu testen, komplexe multimodale Probleme und Umgebungen schrittweise sorgfältig zu analysieren. MARBLE besteht aus zwei äußerst anspruchsvollen Aufgaben, M-Portal und M-Cube, die das Erstellen und Verstehen von mehrstufigen Plänen unter räumlichen, visuellen und physikalischen Einschränkungen erfordern. Wir stellen fest, dass aktuelle MLLMs bei MARBLE schlecht abschneiden – alle 12 fortgeschrittenen Modelle erzielen nahezu zufällige Ergebnisse bei M-Portal und eine Genauigkeit von 0 % bei M-Cube. Nur in vereinfachten Teilaufgaben übertreffen einige Modelle die Zufallsbasis, was darauf hinweist, dass komplexes logisches Denken für bestehende MLLMs nach wie vor eine Herausforderung darstellt. Darüber hinaus zeigen wir, dass die Wahrnehmung ein Engpass bleibt, da MLLMs gelegentlich scheitern, Informationen aus den visuellen Eingaben zu extrahieren. Indem wir die Grenzen von MLLMs aufzeigen, hoffen wir, dass MARBLE die Entwicklung der nächsten Generation von Modellen anregt, die in der Lage sind, über viele multimodale Denkschritte hinweg zu schlussfolgern und zu planen.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben gezeigt, dass Inferenzzeit-Berechnungstechniken wie Decoding-Time-Scaling und Selbstverfeinerung die Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern können, ohne auf externes Wissen angewiesen zu sein. Ein entscheidender Treiber dieses Erfolgs ist das Auftreten von Selbstkorrektur- und Selbstverifikationsverhalten, das häufig durch Reinforcement Learning (RL) ausgelöst wird. In diesem Artikel untersuchen wir, ob sich diese Inferenzzeit-Techniken effektiv auf Vision-Language-Modelle (VLMs) übertragen lassen, insbesondere auf solche, die mit RL trainiert wurden. Wir stellen fest, dass Decoding-Strategien wie Mehrheitsabstimmung und Best-of-N-Auswahl mit Selbstverifikation zwar die logische Leistung von VLMs verbessern, generierungsabhängige Methoden wie erstere jedoch deutlich höhere Gewinne erzielen als verifikationsabhängige Methoden wie letztere. Darüber hinaus führt das mit RL-optimierten Modellen oft verbundene Selbstkorrekturverhalten, wie beispielsweise der „Aha-Moment“, zu keinen messbaren Verbesserungen. Wir zeigen durch umfangreiche Experimente im Rahmen des Inferenzzeit-Scaling, dass eine wesentliche Ursache darin liegt, dass RL-trainierte VLMs noch immer keine robusten Selbstverifikationsfähigkeiten in beiden Modalitäten, visuell und textuell, besitzen.
Agenten, die auf Large Language Models (LLMs) basieren, haben vielversprechende Ansätze gezeigt, um anspruchsvolle Softwareentwicklungsaufgaben autonom auszuführen. Darüber hinaus gab es Fortschritte bei der Entwicklung von Agenten, die Teile des Forschungsprozesses im Bereich des maschinellen Lernens und der Naturwissenschaften übernehmen können. Wir argumentieren, dass die Erweiterung von Forschung und deren Implementierung eine entscheidende Fähigkeit für solche Systeme darstellt, und stellen RExBench vor, um die Bewertung dieser Fähigkeit zu unterstützen. RExBench ist ein Benchmark, der aus 12 realistischen Aufgaben zur Implementierung von Forschungsexperimenten besteht, die darauf abzielen, Forschungshypothesen zu untersuchen, die bisher nicht implementiert wurden. Jede Aufgabe ist als Erweiterung zu einem bestehenden Forschungsartikel und Codebase konzipiert und wird von Anweisungen begleitet, die von Domänenexperten verfasst wurden. RExBench ist robust gegenüber Datenkontamination und unterstützt eine automatische Evaluierungsinfrastruktur, die die Ausgaben der Agenten ausführt, um festzustellen, ob die Erfolgskriterien erfüllt sind. Wir verwenden diesen Benchmark, um neun LLM-Agenten zu bewerten, die mit drei verschiedenen Frameworks implementiert wurden: aider, Claude Code und OpenHands. Wir stellen fest, dass alle bewerteten Agenten die Mehrheit der Erweiterungen nicht autonom implementieren können. Obwohl die Erfolgsquote mit zusätzlichen, von Menschen verfassten Hinweisen steigt, bleibt die beste Leistung unter dieser Bedingung unter 40 %. Dies deutet darauf hin, dass aktuelle Agenten noch weit davon entfernt sind, realistische Forschungsaufgaben ohne erhebliche menschliche Anleitung bewältigen zu können.
Während die end-to-end Video-zu-Audio-Generierung erhebliche Fortschritte gemacht hat, bleibt die Erzeugung von hochwertigem Audio, das die Nuancen visueller Inhalte authentisch einfängt, eine Herausforderung. Ähnlich wie bei Fachleuten in der Kreativbranche erfordert eine solche Generierung ein ausgeklügeltes Verständnis von Aspekten wie visueller Dynamik, akustischen Umgebungen und zeitlichen Zusammenhängen. Wir präsentieren ThinkSound, ein neuartiges Framework, das Chain-of-Thought (CoT)-Reasoning nutzt, um eine schrittweise, interaktive Audioerzeugung und -bearbeitung für Videos zu ermöglichen. Unser Ansatz zerlegt den Prozess in drei komplementäre Phasen: grundlegende Foley-Generierung, die semantisch kohärente Klanglandschaften erzeugt, interaktive objektzentrierte Verfeinerung durch präzise Benutzerinteraktionen und zielgerichtete Bearbeitung, die durch natürliche Sprachbefehle gesteuert wird. In jeder Phase generiert ein multimodales großes Sprachmodell kontextbezogenes CoT-Reasoning, das ein einheitliches Audio-Grundmodell anleitet. Darüber hinaus führen wir AudioCoT ein, einen umfassenden Datensatz mit strukturierten Reasoning-Annotationen, der Verbindungen zwischen visuellen Inhalten, textuellen Beschreibungen und Klangsynthese herstellt. Experimente zeigen, dass ThinkSound sowohl in Bezug auf Audio-Metriken als auch auf CoT-Metriken Spitzenleistungen in der Video-zu-Audio-Generierung erzielt und im out-of-distribution Movie Gen Audio Benchmark hervorragend abschneidet. Die Demoseite ist unter https://ThinkSound-Project.github.io verfügbar.
Die urbane Forschung umfasst eine Vielzahl von Szenarien und Aufgaben, die das Verständnis multimodaler Daten erfordern. Aktuelle Methoden konzentrieren sich oft auf spezifische Datentypen und verfügen über keinen einheitlichen Rahmen im urbanen Bereich, um diese umfassend zu verarbeiten. Der jüngste Erfolg multimodaler großer Sprachmodelle (MLLMs) bietet eine vielversprechende Gelegenheit, diese Einschränkung zu überwinden. In diesem Artikel stellen wir UrbanLLaVA vor, ein multimodales großes Sprachmodell, das entwickelt wurde, um diese vier Datentypen gleichzeitig zu verarbeiten und im Vergleich zu allgemeinen MLLMs eine starke Leistung über diverse urbane Aufgaben hinweg zu erzielen. In UrbanLLaVA kuratieren wir zunächst einen vielfältigen urbanen Instruktionsdatensatz, der sowohl unimodale als auch cross-modale urbane Daten umfasst, die von der lokalen bis zur globalen Perspektive des urbanen Umfelds reichen. Zusätzlich schlagen wir ein mehrstufiges Trainingsframework vor, das die Verbesserung des räumlichen Denkens vom Lernen von Domänenwissen entkoppelt, wodurch die Kompatibilität und die nachgelagerte Leistung von UrbanLLaVA über diverse urbane Aufgaben hinweg verbessert wird. Schließlich erweitern wir auch bestehende Benchmarks für die urbane Forschung, um die Leistung von MLLMs über eine breite Palette urbaner Aufgaben hinweg zu bewerten. Experimentelle Ergebnisse aus drei Städten zeigen, dass UrbanLLaVA sowohl in unimodalen Aufgaben als auch in komplexen cross-modalen Aufgaben Open-Source- und proprietäre MLLMs übertrifft und robuste Generalisierungsfähigkeiten über verschiedene Städte hinweg aufweist. Quellcodes und Daten sind der Forschungsgemeinschaft über https://github.com/tsinghua-fib-lab/UrbanLLaVA frei zugänglich.
Weltmodelle haben sich als unverzichtbare Werkzeuge für verkörperte Intelligenz etabliert, da sie als leistungsstarke Simulatoren fungieren, die in der Lage sind, realistische Roboter-Videos zu generieren und gleichzeitig kritische Herausforderungen im Zusammenhang mit Datenknappheit zu bewältigen. Allerdings weisen aktuelle verkörperte Weltmodelle ein begrenztes physikalisches Bewusstsein auf, insbesondere bei der Modellierung von 3D-Geometrie und Bewegungsdynamiken, was zu unrealistischer Videogenerierung in kontaktintensiven Roboterszenarien führt. In diesem Artikel präsentieren wir RoboScape, ein einheitliches physikbasiertes Weltmodell, das RGB-Videogenerierung und physikalisches Wissen innerhalb eines integrierten Frameworks gemeinsam erlernt. Wir führen zwei zentrale physikbasierte gemeinsame Trainingsaufgaben ein: die zeitliche Tiefenvorhersage, die die 3D-geometrische Konsistenz bei der Videorendering verbessert, und das Lernen von Keypoint-Dynamiken, das physikalische Eigenschaften (z. B. Objektform und Materialeigenschaften) implizit kodiert und gleichzeitig die Modellierung komplexer Bewegungen verbessert. Umfangreiche Experimente zeigen, dass RoboScape Videos mit überlegener visueller Qualität und physikalischer Plausibilität in verschiedenen Roboterszenarien generiert. Wir validieren seinen praktischen Nutzen weiterhin durch nachgelagerte Anwendungen, einschließlich des Trainings von Roboter-Policies mit generierten Daten und der Policy-Evaluierung. Unsere Arbeit liefert neue Erkenntnisse für den Aufbau effizienter physikbasierter Weltmodelle, um die Forschung zur verkörperten Intelligenz voranzutreiben. Der Code ist verfügbar unter: https://github.com/tsinghua-fib-lab/RoboScape.
Die Integration externer Tools durch Funktionsaufrufe ist entscheidend für praktische Anwendungen von Sprachmodellen, doch den meisten mehrsprachigen Modellen fehlen zuverlässige Fähigkeiten zur Werkzeugnutzung in nicht-englischen Sprachen. Selbst state-of-the-art mehrsprachige Modelle haben Schwierigkeiten, den richtigen Zeitpunkt für die Nutzung von Tools zu bestimmen und die strukturierten Ausgaben zu erzeugen, die für Funktionsaufrufe erforderlich sind. Oft zeigen sie Sprachverwirrung, wenn sie in ressourcenärmeren Sprachen angestoßen werden. Diese Arbeit präsentiert eine Methodik zur Anpassung bestehender Sprachmodelle, um eine robuste Werkzeugnutzung in jeder Zielsprache zu ermöglichen, wobei Bulgarisch als Fallstudie dient. Der Ansatz umfasst das fortgesetzte Training der BgGPT-Modellreihe (2,6B, 9B, 27B Parameter) auf einem neuartigen zweisprachigen Datensatz mit 10.035 Beispielen für Funktionsaufrufe, die standardisierte Protokolle wie MCP (Model Context Protocol) unterstützen. Die Forschung führt TUCAN (Tool-Using Capable Assistant Navigator) ein, das eine Verbesserung der Genauigkeit bei Funktionsaufrufen von bis zu 28,75 % gegenüber den Basismodellen erzielt, während das grundlegende Sprachverständnis erhalten bleibt, wie durch etablierte bulgarische Benchmarks bestätigt wird. Neben den Genauigkeitssteigerungen zeigen die TUCAN-Modelle produktionsreife Antwortformatierungen mit sauberen, parsbaren Funktionsaufrufen, im Gegensatz zu den ausführlichen und inkonsistenten Ausgaben der Basismodelle. Die Modelle, das Evaluierungsframework und der Datensatz werden veröffentlicht, um die Replikation für andere Sprachen zu ermöglichen. Diese Arbeit demonstriert einen praktischen Ansatz, um werkzeuggestützte Fähigkeiten über englischzentrierte Systeme hinaus zu erweitern.
Das Feinabstimmen vortrainierter LLMs hat sich als effektive Strategie erwiesen, um Spitzenleistungen bei spezifischen Aufgaben wie maschineller Übersetzung zu erreichen. Dieser Anpassungsprozess geht jedoch oft mit dem Verlust allgemeiner Fähigkeiten einher, wie etwa konversationellem Denken und Befolgen von Anweisungen, was die Nützlichkeit des Systems in realen Anwendungen, die eine Mischung verschiedener Fähigkeiten erfordern, beeinträchtigt. In diesem Artikel stellen wir Tower+ vor, eine Suite von Modellen, die sowohl starke Leistungen in der Übersetzung als auch in mehrsprachigen allgemeinen Textfähigkeiten liefern soll. Wir erreichen eine Pareto-Grenze zwischen Übersetzungsspezialisierung und mehrsprachigen allgemeinen Fähigkeiten durch ein neuartiges Trainingsrezept, das auf Tower (Alves et al., 2024) aufbaut und fortgesetztes Vortraining, überwachtes Feinabstimmen, Präferenzoptimierung sowie bestärkendes Lernen mit überprüfbaren Belohnungen umfasst. In jeder Trainingsphase generieren und kuratieren wir sorgfältig Daten, um die Leistung sowohl in der Übersetzung als auch in allgemeinen Aufgaben wie Code-Generierung, mathematischer Problemlösung und dem Befolgen von Anweisungen zu stärken. Wir entwickeln Modelle in verschiedenen Größen: 2B, 9B und 72B. Unsere kleineren Modelle übertreffen oft größere allgemeine Open-Weight- und proprietäre LLMs (z.B. Llama 3.3 70B, GPT-4o). Unser größtes Modell liefert Spitzenleistungen in der Übersetzung für hochressourcenreiche Sprachen und erzielt Top-Ergebnisse in mehrsprachigen Arena Hard-Evaluierungen sowie in IF-MT, einem Benchmark, den wir einführen, um sowohl Übersetzung als auch das Befolgen von Anweisungen zu bewerten. Unsere Ergebnisse zeigen, dass es möglich ist, Spitzenmodelle in allgemeinen Fähigkeiten zu konkurrieren, während gleichzeitig spezifische Geschäftsbereiche wie Übersetzung und Lokalisierung optimiert werden.
In diesem Artikel stellen wir eine einfache, trainingsfreie Technik vor, um die Leistung von drafter-basierten spekulativen Dekodierungsmethoden (SpD) zu verbessern, die den Sprachmodellierungs-Kopf (LM-Kopf) während des Drafting-Prozesses einbeziehen. Eine drafter-basierte spekulative Dekodierung nutzt ein oder mehrere kleinere Sprachmodelle, sogenannte Drafters oder Draft-Modelle, um eine Draft-Sequenz oder einen Draft-Baum aus mehreren Tokens zu erzeugen, gefolgt von einer Überprüfung durch ein Basis-LLM, das Zielmodell, das eine Teilmenge als gültige Generierung akzeptiert. Da allgemein angenommen wird, dass die spekulative Dekodierung eine Eins-zu-Eins-Zuordnung zwischen den Vokabularen des Zielmodells und des Draft-Modells erfordert, war es naheliegend, das Vokabular zwischen ihnen zu teilen oder sogar den LM-Kopf zu teilen, wie in EAGLE oder Medusa. Wir identifizieren zunächst, dass dieses Draft-Token-Sampling-Schema inhärent einen unnötigen Inferenz-Overhead beim Drafting enthält, insbesondere für einige Ziel-LLMs mit sehr großen Vokabularen. Anschließend schlagen wir eine einfache Technik, VocabTrim, vor, um den Drafting-Overhead zu verringern und die Generierungsgeschwindigkeit in speicherbeschränkten Umgebungen zu verbessern. VocabTrim rekonstruiert den LM-Kopf des Drafters, sodass er nur eine begrenzte Menge von Tokens enthält, die anhand der am häufigsten gesampelten Tokens aus dem Vokabular des Zielmodells ausgewählt werden. Während die Einschränkung des Vokabulars beim Drafting die Akzeptanzrate leicht verschlechtert, reduziert sie signifikant die Drafting-Latenz in speicherbeschränkten Prozessen, was oft auf Edge-Geräten der Fall ist, und führt zu einer höheren speicherbeschränkten Beschleunigung (MBSU). Wir zeigen, dass unsere Methode die speicherbeschränkte Beschleunigung für Llama-3-Modelle auf Spec-Bench steigern kann, insbesondere um 16 % für Llama-3.2-3B-Instruct.
Metalinsen bieten ein erhebliches Potenzial für ultra-kompakte Computational Imaging, stehen jedoch vor Herausforderungen durch komplexe optische Degradation und Schwierigkeiten bei der computergestützten Wiederherstellung. Bestehende Methoden stützen sich typischerweise auf präzise optische Kalibrierung oder umfangreiche gepaarte Datensätze, was für reale Bildgebungssysteme nicht trivial ist. Darüber hinaus führt ein Mangel an Kontrolle über den Inferenzprozess oft zu unerwünschten halluzinierten Artefakten. Wir stellen Degradation-Modeled Multipath Diffusion für die einstellbare Metalinsen-Fotografie vor, das leistungsstarke natürliche Bildprioren aus vortrainierten Modellen anstelle großer Datensätze nutzt. Unser Framework verwendet positive, neutrale und negative-Prompt-Pfade, um die Erzeugung hochfrequenter Details, strukturelle Treue und die Unterdrückung metalinsenspezifischer Degradation zu balancieren, ergänzt durch pseudo-Datenaugmentation. Ein einstellbarer Decoder ermöglicht kontrollierte Kompromisse zwischen Treue und wahrgenommener Qualität. Zusätzlich modelliert ein räumlich variierendes, degradationsbewusstes Attention-Modul (SVDA) komplexe optische und sensorinduzierte Degradation adaptiv. Schließlich entwerfen und bauen wir eine millimeterkleine MetaCamera zur Validierung in der realen Welt. Umfangreiche Ergebnisse zeigen, dass unser Ansatz state-of-the-art Methoden übertrifft und eine hochwertige und scharfe Bildrekonstruktion erreicht. Weitere Materialien: https://dmdiff.github.io/.