Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sora hat das immense Potenzial der Diffusion Transformer (DiT)-Architektur bei der Generierung von Einzelszenen-Videos aufgezeigt. Die anspruchsvollere Aufgabe der Multi-Szenen-Videogenerierung, die breitere Anwendungsmöglichkeiten bietet, bleibt jedoch relativ unerforscht. Um diese Lücke zu schließen, schlagen wir Mask^2DiT vor, einen neuartigen Ansatz, der eine feinkörnige, eins-zu-eins-Zuordnung zwischen Videosegmenten und ihren entsprechenden Textannotationen herstellt. Konkret führen wir eine symmetrische binäre Maske in jeder Aufmerksamkeitsschicht innerhalb der DiT-Architektur ein, um sicherzustellen, dass jede Textannotation ausschließlich auf ihr jeweiliges Videosegment angewendet wird, während die zeitliche Kohärenz über visuelle Tokens hinweg erhalten bleibt. Dieser Aufmerksamkeitsmechanismus ermöglicht eine präzise segmentweise Text-zu-Bild-Zuordnung, wodurch die DiT-Architektur effektiv Videogenerierungsaufgaben mit einer festen Anzahl von Szenen bewältigen kann. Um die DiT-Architektur weiterhin mit der Fähigkeit auszustatten, zusätzliche Szenen basierend auf bestehenden zu generieren, integrieren wir eine segmentweise bedingte Maske, die jedes neu generierte Segment auf die vorhergehenden Videosegmente konditioniert und somit eine autoregressive Szenenerweiterung ermöglicht. Sowohl qualitative als auch quantitative Experimente bestätigen, dass Mask^2DiT hervorragend darin ist, die visuelle Konsistenz über Segmente hinweg aufrechtzuerhalten und gleichzeitig die semantische Ausrichtung zwischen jedem Segment und seiner entsprechenden Textbeschreibung sicherzustellen. Unsere Projektseite ist https://tianhao-qi.github.io/Mask2DiTProject.
In diesem Bericht stellen wir Qwen2.5-Omni vor, ein end-to-end multimodales Modell, das darauf ausgelegt ist, verschiedene Modalitäten wie Text, Bilder, Audio und Video wahrzunehmen und gleichzeitig Text und natürliche Sprachantworten in einem Streaming-Verfahren zu generieren. Um das Streaming von multimodalen Informationsinputs zu ermöglichen, verwenden sowohl Audio- als auch visuelle Encoder einen blockweisen Verarbeitungsansatz. Um die Zeitstempel von Videoinputs mit Audio zu synchronisieren, organisieren wir Audio und Video sequenziell in einer verschachtelten Weise und schlagen einen neuartigen Positionierungs-Embedding-Ansatz vor, der als TMRoPE (Time-aligned Multimodal RoPE) bezeichnet wird. Um gleichzeitig Text und Sprache zu generieren und dabei Interferenzen zwischen den beiden Modalitäten zu vermeiden, schlagen wir die Thinker-Talker-Architektur vor. In diesem Framework fungiert Thinker als ein großes Sprachmodell, das für die Textgenerierung zuständig ist, während Talker ein dual-track autoregressives Modell ist, das direkt die verborgenen Repräsentationen des Thinkers nutzt, um Audio-Tokens als Ausgabe zu erzeugen. Sowohl das Thinker- als auch das Talker-Modell sind so konzipiert, dass sie end-to-end trainiert und inferiert werden können. Für das Decodieren von Audio-Tokens in einem Streaming-Verfahren führen wir ein Sliding-Window DiT ein, das das rezeptive Feld einschränkt, um die anfängliche Paketverzögerung zu reduzieren. Qwen2.5-Omni ist vergleichbar mit dem ähnlich großen Qwen2.5-VL und übertrifft Qwen2-Audio. Darüber hinaus erzielt Qwen2.5-Omni state-of-the-art Leistungen auf multimodalen Benchmarks wie Omni-Bench. Bemerkenswert ist, dass die Leistung von Qwen2.5-Omni bei der end-to-end Sprachbefolgung vergleichbar ist mit seinen Fähigkeiten bei Texteingaben, wie durch Benchmarks wie MMLU und GSM8K belegt wird. Was die Sprachgenerierung betrifft, übertrifft der Streaming-Talker von Qwen2.5-Omni die meisten bestehenden Streaming- und Nicht-Streaming-Alternativen in Bezug auf Robustheit und Natürlichkeit.
Dieser Bericht stellt Wan vor, eine umfassende und offene Suite von Video-Foundation-Modellen, die die Grenzen der Videogenerierung erweitern soll. Basierend auf dem Mainstream-Diffusion-Transformer-Paradigma erzielt Wan bedeutende Fortschritte in den generativen Fähigkeiten durch eine Reihe von Innovationen, darunter unser neuartiges VAE, skalierbare Pre-Training-Strategien, groß angelegte Datenkuratierung und automatisierte Bewertungsmetriken. Diese Beiträge verbessern gemeinsam die Leistung und Vielseitigkeit des Modells. Insbesondere zeichnet sich Wan durch vier Schlüsselmerkmale aus: Führende Leistung: Das 14B-Modell von Wan, das auf einem umfangreichen Datensatz mit Milliarden von Bildern und Videos trainiert wurde, demonstriert die Skalierungsgesetze der Videogenerierung in Bezug auf Daten- und Modellgröße. Es übertrifft konsequent die bestehenden Open-Source-Modelle sowie state-of-the-art kommerzielle Lösungen in mehreren internen und externen Benchmarks und zeigt eine klare und signifikante Leistungsüberlegenheit. Umfassendheit: Wan bietet zwei leistungsstarke Modelle, d.h. 1,3B und 14B Parameter, für Effizienz und Effektivität. Es deckt auch mehrere Downstream-Anwendungen ab, darunter Bild-zu-Video, instruktionsgesteuerte Videobearbeitung und persönliche Videogenerierung, die bis zu acht Aufgaben umfassen. Verbraucherfreundliche Effizienz: Das 1,3B-Modell zeigt eine außergewöhnliche Ressourceneffizienz und benötigt nur 8,19 GB VRAM, was es mit einer breiten Palette von verbrauchertauglichen GPUs kompatibel macht. Offenheit: Wir stellen die gesamte Serie von Wan, einschließlich des Quellcodes und aller Modelle, als Open-Source zur Verfügung, mit dem Ziel, das Wachstum der Videogenerierungsgemeinschaft zu fördern. Diese Offenheit soll die kreativen Möglichkeiten der Videoproduktion in der Industrie erheblich erweitern und der Wissenschaft hochwertige Video-Foundation-Modelle zur Verfügung stellen. Der gesamte Code und die Modelle sind unter https://github.com/Wan-Video/Wan2.1 verfügbar.
Wir stellen Gemma 3 vor, eine multimodale Ergänzung zur Gemma-Familie von leichten Open-Modellen, die in der Skala von 1 bis 27 Milliarden Parametern reichen. Diese Version führt Fähigkeiten zur Bildverarbeitung, eine breitere Abdeckung von Sprachen und einen längeren Kontext – mindestens 128.000 Tokens – ein. Wir ändern auch die Architektur des Modells, um den KV-Cache-Speicher zu reduzieren, der bei langem Kontext tendenziell explodiert. Dies wird erreicht, indem das Verhältnis von lokalen zu globalen Aufmerksamkeitsschichten erhöht und die Spanne der lokalen Aufmerksamkeit kurz gehalten wird. Die Gemma-3-Modelle werden mit Distillation trainiert und übertreffen die Leistung von Gemma 2 sowohl bei den vortrainierten als auch bei den instruktionsfeinabgestimmten Versionen. Insbesondere verbessert unser neuartiges Post-Training-Rezept die Fähigkeiten in Mathematik, Chat, Instruktionsbefolgung und Mehrsprachigkeit erheblich, wodurch Gemma3-4B-IT mit Gemma2-27B-IT und Gemma3-27B-IT mit Gemini-1.5-Pro in Benchmarks vergleichbar wird. Wir stellen alle unsere Modelle der Community zur Verfügung.
Während neuere Vision-Sprache-Aktion-Modelle, die auf diversen Roboterdatensätzen trainiert wurden, vielversprechende Generalisierungsfähigkeiten mit begrenzten in-domain-Daten zeigen, schränkt ihre Abhängigkeit von kompakten Aktionsköpfen zur Vorhersage diskretisierter oder kontinuierlicher Aktionen die Anpassungsfähigkeit an heterogene Aktionsräume ein. Wir stellen Dita vor, ein skalierbares Framework, das Transformer-Architekturen nutzt, um kontinuierliche Aktionssequenzen direkt durch einen einheitlichen multimodalen Diffusionsprozess zu entrauschen. Im Gegensatz zu früheren Methoden, die die Entrauschung auf fusionierte Embeddings über flache Netzwerke konditionieren, verwendet Dita In-Context-Konditionierung – was eine fein abgestimmte Ausrichtung zwischen entrauschten Aktionen und rohen visuellen Tokens aus historischen Beobachtungen ermöglicht. Dieses Design modelliert explizit Aktionsdeltas und Umweltnuancen. Durch die Skalierung des Diffusions-Aktionsentrauschers zusammen mit der Skalierbarkeit des Transformers integriert Dita effektiv Cross-Embodiment-Datensätze über diverse Kameraperspektiven, Beobachtungsszenen, Aufgaben und Aktionsräume hinweg. Diese Synergie erhöht die Robustheit gegenüber verschiedenen Varianzen und erleichtert die erfolgreiche Ausführung langfristiger Aufgaben. Bewertungen über umfangreiche Benchmarks zeigen state-of-the-art oder vergleichbare Leistungen in der Simulation. Bemerkenswerterweise erreicht Dita eine robuste Anpassung an reale Umgebungsvarianzen und komplexe langfristige Aufgaben durch 10-Shot-Finetuning, wobei nur Third-Person-Kameraeingaben verwendet werden. Die Architektur etabliert eine vielseitige, leichtgewichtige und Open-Source-Baseline für das generalistische Robot Policy Learning. Projektseite: https://robodita.github.io.
Wir stellen Open Deep Search (ODS) vor, um die wachsende Lücke zwischen proprietären Such-KI-Lösungen, wie Perplexitys Sonar Reasoning Pro und OpenAIs GPT-4o Search Preview, und ihren Open-Source-Pendants zu schließen. Die Hauptinnovation von ODS besteht darin, die Fähigkeiten der neuesten Open-Source-LLMs durch Reasoning-Agents zu erweitern, die gezielt Web-Such-Tools nutzen können, um Anfragen zu beantworten. Konkret besteht ODS aus zwei Komponenten, die mit einem vom Benutzer gewählten Basis-LLM zusammenarbeiten: Open Search Tool und Open Reasoning Agent. Der Open Reasoning Agent interpretiert die gegebene Aufgabe und führt sie aus, indem er eine Abfolge von Aktionen orchestriert, zu denen auch der Aufruf von Tools gehört, eines davon ist das Open Search Tool. Das Open Search Tool ist ein neuartiges Web-Such-Tool, das proprietäre Gegenstücke übertrifft. Zusammen mit leistungsstarken Open-Source-Reasoning-LLMs, wie DeepSeek-R1, erreicht ODS nahezu und manchmal sogar übertrifft es die bestehenden State-of-the-Art-Baselines in zwei Benchmarks: SimpleQA und FRAMES. Beispielsweise verbessert ODS auf dem FRAMES-Evaluations-Benchmark die beste bestehende Baseline des kürzlich veröffentlichten GPT-4o Search Preview um 9,7 % in der Genauigkeit. ODS ist ein allgemeines Framework, um nahtlos beliebige LLMs – zum Beispiel DeepSeek-R1, das 82,4 % auf SimpleQA und 30,1 % auf FRAMES erreicht – mit Such- und Reasoning-Fähigkeiten zu erweitern, um State-of-the-Art-Leistungen zu erzielen: 88,3 % auf SimpleQA und 75,3 % auf FRAMES.
Mehrschrittiges räumliches Denken umfasst das Verständnis und die Schlussfolgerung über räumliche Beziehungen über mehrere aufeinanderfolgende Schritte hinweg, was entscheidend für die Bewältigung komplexer realer Anwendungen wie der Roboter-Manipulation, der autonomen Navigation und der automatisierten Montage ist. Um zu bewerten, wie gut aktuelle Multimodale Große Sprachmodelle (MLLMs) diese grundlegende Fähigkeit erworben haben, führen wir LEGO-Puzzles ein, einen skalierbaren Benchmark, der darauf abzielt, sowohl das räumliche Verständnis als auch das sequenzielle Denken in MLLMs durch LEGO-basierte Aufgaben zu bewerten. LEGO-Puzzles besteht aus 1.100 sorgfältig kuratierten visuellen Frage-Antwort-Beispielen (VQA), die 11 verschiedene Aufgaben umfassen, die vom grundlegenden räumlichen Verständnis bis hin zu komplexem mehrschrittigem Denken reichen. Basierend auf LEGO-Puzzles führen wir eine umfassende Bewertung der modernsten MLLMs durch und decken erhebliche Einschränkungen in ihren räumlichen Denkfähigkeiten auf: selbst die leistungsstärksten MLLMs können nur etwa die Hälfte der Testfälle beantworten, während menschliche Teilnehmer eine Genauigkeit von über 90 % erreichen. Neben VQA-Aufgaben bewerten wir die Fähigkeiten der MLLMs, LEGO-Bilder gemäß Montageanleitungen zu generieren. Unsere Experimente zeigen, dass nur Gemini-2.0-Flash und GPT-4o eine begrenzte Fähigkeit besitzen, diesen Anweisungen zu folgen, während andere MLLMs entweder das Eingabebild replizieren oder völlig irrelevante Ausgaben erzeugen. Insgesamt deckt LEGO-Puzzles kritische Mängel im räumlichen Verständnis und sequenziellen Denken bestehender MLLMs auf und unterstreicht die Notwendigkeit weiterer Fortschritte im multimodalen räumlichen Denken.
Jüngste Fortschritte bei großen multimodalen Modellen haben zur Entstehung bemerkenswerter Generalistenfähigkeiten in digitalen Domänen geführt, doch ihre Übertragung auf physische Agenten wie Roboter bleibt eine erhebliche Herausforderung. Dieser Bericht stellt eine neue Familie von KI-Modellen vor, die speziell für die Robotik entwickelt wurden und auf der Grundlage von Gemini 2.0 aufbauen. Wir präsentieren Gemini Robotics, ein fortschrittliches Vision-Language-Action (VLA)-Generalistenmodell, das in der Lage ist, Roboter direkt zu steuern. Gemini Robotics führt fließende und reaktive Bewegungen aus, um eine Vielzahl komplexer Manipulationsaufgaben zu bewältigen, und ist dabei robust gegenüber Variationen bei Objekttypen und -positionen, bewältigt unbekannte Umgebungen und folgt diversen, offenen Vokabularanweisungen. Wir zeigen, dass Gemini Robotics durch zusätzliches Fine-Tuning auf neue Fähigkeiten spezialisiert werden kann, einschließlich der Lösung langfristiger, hochgeschickter Aufgaben, des Erlernens neuer kurzfristiger Aufgaben aus nur 100 Demonstrationen und der Anpassung an völlig neue Roboter-Embodiments. Dies wird ermöglicht, weil Gemini Robotics auf dem Gemini Robotics-ER-Modell aufbaut, dem zweiten Modell, das wir in dieser Arbeit vorstellen. Gemini Robotics-ER (Embodied Reasoning) erweitert die multimodalen Denkfähigkeiten von Gemini in die physische Welt, mit verbessertem räumlichem und zeitlichem Verständnis. Dies ermöglicht Fähigkeiten, die für die Robotik relevant sind, einschließlich Objekterkennung, Zeigen, Trajektorien- und Greifvorhersage sowie Multi-View-Korrespondenz und 3D-Bounding-Box-Vorhersagen. Wir zeigen, wie diese neuartige Kombination eine Vielzahl von Robotikanwendungen unterstützen kann. Wir diskutieren und behandeln auch wichtige Sicherheitsaspekte im Zusammenhang mit dieser neuen Klasse von Robotik-Grundmodellen. Die Gemini Robotics-Familie markiert einen bedeutenden Schritt hin zur Entwicklung von Allzweckrobotern, die das Potenzial der KI in der physischen Welt realisieren.
Classifier-Free Guidance (CFG) ist eine grundlegende Technik für das Training konditionaler Diffusionsmodelle. Die gängige Praxis beim CFG-basierten Training besteht darin, ein einzelnes Netzwerk zu verwenden, um sowohl die konditionale als auch die unkonditionale Rauschvorhersage zu erlernen, wobei eine geringe Dropout-Rate für die Konditionierung verwendet wird. Wir beobachten jedoch, dass das gemeinsame Lernen des unkonditionalen Rauschens mit begrenzter Bandbreite im Training zu schlechten Prioritäten für den unkonditionalen Fall führt. Noch wichtiger ist, dass diese schlechten unkonditionalen Rauschvorhersagen ein ernsthafter Grund für die Verschlechterung der Qualität der konditionalen Generierung werden. Inspiriert von der Tatsache, dass die meisten CFG-basierten konditionalen Modelle durch Feinabstimmung eines Basismodells mit besserer unkonditionaler Generierung trainiert werden, zeigen wir zunächst, dass der einfache Ersatz des unkonditionalen Rauschens in CFG durch die vom Basismodell vorhergesagten Werte die konditionale Generierung erheblich verbessern kann. Darüber hinaus zeigen wir, dass ein anderes Diffusionsmodell als das, auf dem das feinabgestimmte Modell trainiert wurde, für den Ersatz des unkonditionalen Rauschens verwendet werden kann. Wir überprüfen unsere Behauptung experimentell mit einer Reihe von CFG-basierten konditionalen Modellen für die Bild- und Videogenerierung, darunter Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter und InstructPix2Pix.
Die Synergie zwischen generativen und diskriminativen Modellen erfährt zunehmende Aufmerksamkeit. Während das diskriminative Contrastive Language-Image Pre-Training (CLIP) in der Erfassung hochrangiger Semantik hervorragt, hat es Schwierigkeiten, fein abgestufte visuelle Details wahrzunehmen. Generell nutzen generative Modelle die visuellen Merkmale von CLIP als Bedingungen für die Rekonstruktion, um die Repräsentationen zu verbessern. Das zugrunde liegende Prinzip bleibt jedoch weitgehend unerforscht. In dieser Arbeit haben wir empirisch festgestellt, dass visuell perfekte Generierungen nicht immer optimal für die Verbesserung der Repräsentation sind. Der Kern liegt darin, fein abgestuftes Wissen effektiv aus generativen Modellen zu extrahieren, während irrelevante Informationen minimiert werden. Um kritische Faktoren zu untersuchen, gehen wir auf drei Aspekte ein: (1) Konditionierungsmechanismen: Wir fanden heraus, dass bereits eine kleine Anzahl lokaler Token die Rekonstruktionsschwierigkeit drastisch verringern kann, was zu einem Zusammenbruch des Trainings führt. Daher schließen wir, dass die Nutzung ausschließlich globaler visueller Token als Bedingungen die effektivste Strategie ist. (2) Denoising-Konfigurationen: Wir beobachteten, dass end-to-end-Training zusätzliche Informationen einführt. Um dies zu adressieren, schlagen wir eine zweistufige Trainingsstrategie vor, um das Lernen nützlicher visueller Kenntnisse zu priorisieren. Zudem zeigen wir, dass leichte Denoiser bemerkenswerte Verbesserungen erzielen können. (3) Generierungsparadigmen: Wir untersuchen sowohl kontinuierliche als auch diskrete Denoiser mit positiven Ergebnissen, was die Vielseitigkeit unserer Methode bestätigt. Durch unsere tiefgehenden Untersuchungen haben wir schließlich eine effektive Methode entwickelt, nämlich GenHancer, die auf dem MMVP-VLM-Benchmark durchweg frühere Ansätze übertrifft, z.B. um 6,0 % bei OpenAICLIP. Das verbesserte CLIP kann weiterhin in multimodale große Sprachmodelle integriert werden, um eine bessere visuell-zentrierte Leistung zu erzielen. Alle Modelle und Codes sind öffentlich verfügbar.
Kürzlich haben state-of-the-art Text-zu-Bild-Generierungsmodelle wie Flux und Ideogram 2.0 bedeutende Fortschritte bei der visuellen Textdarstellung auf Satzebene erzielt. In diesem Artikel konzentrieren wir uns auf die anspruchsvolleren Szenarien der visuellen Textdarstellung auf Artikelebene und behandeln eine neuartige Aufgabe: die Erstellung hochwertiger Geschäftsinhalte, einschließlich Infografiken und Folien, basierend auf vom Benutzer bereitgestellten beschreibenden Prompts auf Artikelebene und ultra-dichten Layouts. Die grundlegenden Herausforderungen sind zweierlei: deutlich längere Kontextlängen und die Knappheit an hochwertigen Geschäftsinhaltsdaten. Im Gegensatz zu den meisten früheren Arbeiten, die sich auf eine begrenzte Anzahl von Teilbereichen und Prompts auf Satzebene konzentrieren, ist die genaue Einhaltung von ultra-dichten Layouts mit Dutzenden oder sogar Hunderten von Teilbereichen in Geschäftsinhalten weitaus schwieriger. Wir leisten zwei wesentliche technische Beiträge: (i) die Erstellung eines skalierbaren, hochwertigen Geschäftsinhaltsdatensatzes, nämlich Infographics-650K, ausgestattet mit ultra-dichten Layouts und Prompts durch die Implementierung eines schichtenweisen, retrieval-augmentierten Infografik-Generierungsschemas; und (ii) ein layoutgeführtes Cross-Attention-Schema, das Dutzende von regionsspezifischen Prompts in einen Satz von zugeschnittenen Regionen im latenten Raum gemäß den ultra-dichten Layouts injiziert und jede Teilregion während der Inferenz flexibel mithilfe eines layoutbedingten CFG verfeinert. Wir demonstrieren die überzeugenden Ergebnisse unseres Systems im Vergleich zu früheren SOTA-Systemen wie Flux und SD3 auf unserem BizEval-Prompt-Set. Zusätzlich führen wir umfassende Ablationsexperimente durch, um die Wirksamkeit jeder Komponente zu überprüfen. Wir hoffen, dass unser erstellter Infographics-650K-Datensatz und BizEval die breitere Gemeinschaft dazu anregen, die Fortschritte bei der Generierung von Geschäftsinhalten voranzutreiben.
Wir stellen LogQuant vor, eine bahnbrechende 2-Bit-Quantisierungstechnik für den KV-Cache bei der Inferenz von großen Sprachmodellen (LLMs), die erhebliche Speichereinsparungen bietet, während sie gleichzeitig eine überlegene Leistung beibehält. Bisherige Methoden gehen entweder davon aus, dass spätere Token wichtiger sind, oder versuchen, wichtige Token basierend auf früheren Aufmerksamkeitsmustern vorherzusagen. Beide Ansätze können jedoch zu Leistungsengpässen oder häufigen Fehlvorhersagen führen. LogQuant verfolgt einen anderen Ansatz. Durch die Anwendung eines log-basierten Filtermechanismus komprimiert es den KV-Cache selektiv über den gesamten Kontext hinweg und erreicht dabei eine bessere Leistung bei gleichem oder sogar reduziertem Speicherbedarf im Vergleich zu bestehenden Methoden. In Benchmark-Tests steigert es den Durchsatz um 25 % und erhöht die Batch-Größe um 60 %, ohne den Speicherverbrauch zu erhöhen. Bei anspruchsvollen Aufgaben wie Mathematik- und Code-Vervollständigung verbessert LogQuant die Genauigkeit um 40 % bis 200 % bei gleichem Kompressionsverhältnis und übertrifft damit vergleichbare Techniken. LogQuant lässt sich nahtlos in gängige Inferenz-Frameworks wie die Python-Bibliothek „transformers“ integrieren. Die Implementierung ist unter https://github.com/Concyclics/LogQuantKV verfügbar.
Wir stellen MCTS-RAG vor, einen neuartigen Ansatz, der die Fähigkeiten kleiner Sprachmodelle bei wissensintensiven Aufgaben durch die Nutzung von Retrieval-Augmented Generation (RAG) zur Bereitstellung relevanter Kontexte und Monte Carlo Tree Search (MCTS) zur Verfeinerung von Argumentationspfaden verbessert. MCTS-RAG integriert Retrieval und Argumentation dynamisch durch einen iterativen Entscheidungsprozess. Im Gegensatz zu standardmäßigen RAG-Methoden, die typischerweise Informationen unabhängig von der Argumentation abrufen und somit Wissen suboptimal integrieren, oder konventioneller MCTS-Argumentation, die ausschließlich auf internem Modellwissen ohne externe Fakten basiert, kombiniert MCTS-RAG strukturierte Argumentation mit adaptivem Retrieval. Dieser integrierte Ansatz verbessert die Entscheidungsfindung, reduziert Halluzinationen und gewährleistet eine höhere faktische Genauigkeit und Antwortkonsistenz. Die experimentellen Ergebnisse auf mehreren Argumentations- und wissensintensiven Datensätzen (z. B. ComplexWebQA, GPQA und FoolMeTwice) zeigen, dass unsere Methode kleinere Sprachmodelle in die Lage versetzt, eine Leistung zu erzielen, die mit der von Spitzenmodellen wie GPT-4 vergleichbar ist, indem sie die Inferenzzeit-Rechenleistung effektiv skaliert. Damit setzt MCTS-RAG einen neuen Standard für die Argumentation in kleinen Modellen.
Diffusionsmodelle haben bemerkenswerte Fortschritte im Bereich der Videogenerierung erzielt. Allerdings erfordert ihre iterative Entrauschungsnatur eine große Anzahl von Inferenzschritten, um ein Video zu generieren, was langsam und rechenintensiv ist. In diesem Papier beginnen wir mit einer detaillierten Analyse der Herausforderungen, die in bestehenden Diffusionsdestillationsmethoden vorhanden sind, und schlagen eine neuartige effiziente Methode namens AccVideo vor, um die Inferenzschritte zur Beschleunigung von Videodiffusionsmodellen mit einem synthetischen Datensatz zu reduzieren. Wir nutzen das vortrainierte Videodiffusionsmodell, um mehrere gültige Entrauschungspfade als unseren synthetischen Datensatz zu generieren, wodurch die Verwendung nutzloser Datenpunkte während der Destillation entfällt. Basierend auf dem synthetischen Datensatz entwerfen wir eine pfadbasierte Mehrschrittführung, die Schlüsseldatenpunkte aus den Entrauschungspfaden nutzt, um die Rauschen-zu-Video-Abbildung zu erlernen, was die Videogenerierung in weniger Schritten ermöglicht. Darüber hinaus führen wir, da der synthetische Datensatz die Datenverteilung in jedem Diffusionszeitschritt erfasst, eine adversariale Trainingsstrategie ein, um die Ausgabeverteilung des Schülermodells mit der unseres synthetischen Datensatzes abzugleichen und so die Videoqualität zu verbessern. Umfangreiche Experimente zeigen, dass unser Modell eine 8,5-fache Verbesserung der Generierungsgeschwindigkeit im Vergleich zum Lehrermodell erreicht, bei gleichbleibender Leistung. Im Vergleich zu früheren Beschleunigungsmethoden ist unser Ansatz in der Lage, Videos mit höherer Qualität und Auflösung zu generieren, d.h. 5 Sekunden, 720x1280, 24fps.
Der Übergang von System 1 zu System 2 in großen Sprachmodellen (LLMs) hat bedeutende Fortschritte bei der Bewältigung komplexer Aufgaben durch gezieltes, iteratives Denken markiert. Dieser Fortschritt geht jedoch oft auf Kosten der Effizienz, da Modelle dazu neigen, übermäßig zu denken und redundante Denkschritte zu generieren, ohne dass sich die Qualität der Ausgaben proportional verbessert. Long-to-Short (L2S)-Denken hat sich als vielversprechende Lösung für diese Herausforderung erwiesen, die darauf abzielt, die Tiefe des Denkens mit praktischer Effizienz in Einklang zu bringen. Während bestehende Ansätze wie überwachtes Fein-Tuning (SFT), Reinforcement Learning (RL) und Prompt-Engineering Potenzial gezeigt haben, sind sie entweder rechenintensiv oder instabil. Modellfusion hingegen bietet eine kosteneffiziente und robuste Alternative, indem sie die schnellen Denkfähigkeiten von System-1-Modellen mit dem methodischen Denken von System-2-Modellen integriert. In dieser Arbeit präsentieren wir eine umfassende empirische Studie zur Modellfusion für L2S-Denken, in der wir verschiedene Methodologien untersuchen, darunter aufgabenvektorbasierte, SVD-basierte und aktivierungsinformierte Fusion. Unsere Experimente zeigen, dass die Modellfusion die durchschnittliche Antwortlänge um bis zu 55 % reduzieren kann, während die Baseline-Leistung erhalten bleibt oder sogar verbessert wird. Wir identifizieren auch eine starke Korrelation zwischen der Modellgröße und der Fusionswirksamkeit durch umfangreiche Bewertungen an 1,5B/7B/14B/32B-Modellen. Darüber hinaus untersuchen wir die Fähigkeit des fusionierten Modells zur Selbstkritik und Selbstkorrektur sowie seine adaptive Antwortlänge basierend auf der Aufgabenkomplexität. Unsere Ergebnisse unterstreichen die Modellfusion als ein hocheffizientes und effektives Paradigma für L2S-Denken, das eine praktische Lösung für das Überdenkungsproblem bietet und gleichzeitig die Robustheit des System-2-Denkens bewahrt. Diese Arbeit ist auf Github verfügbar: https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Jüngste Fortschritte bei großen multimodalen Modellen (Large Multimodal Models, LMMs) haben vielversprechende Anwendungen in autonomen Fahrzeugsystemen (Autonomous Driving Systems, ADS) gezeigt. Ihre direkte Anwendung auf ADS wird jedoch durch Herausforderungen wie das Missverständnis von Verkehrswissen, komplexe Straßenverhältnisse und unterschiedliche Fahrzeugzustände behindert. Um diese Herausforderungen zu bewältigen, schlagen wir den Einsatz von Wissensbearbeitung (Knowledge Editing) vor, die gezielte Modifikationen am Verhalten eines Modells ermöglicht, ohne dass eine vollständige Neuausbildung erforderlich ist. Gleichzeitig stellen wir ADS-Edit vor, einen multimodalen Wissensbearbeitungsdatensatz, der speziell für ADS entwickelt wurde und verschiedene reale Szenarien, multiple Datentypen sowie umfassende Bewertungsmetriken umfasst. Wir führen umfangreiche Experimente durch und leiten mehrere interessante Schlussfolgerungen ab. Wir hoffen, dass unsere Arbeit zur weiteren Weiterentwicklung von Wissensbearbeitungsanwendungen im Bereich des autonomen Fahrens beitragen wird. Code und Daten sind unter https://github.com/zjunlp/EasyEdit verfügbar.
Prozessüberwachte Belohnungsmodelle dienen als fein abgestimmte Funktion, die detailliertes, schrittweises Feedback zu Modellantworten liefert und so die effektive Auswahl von Argumentationspfaden für komplexe Aufgaben erleichtert. Trotz ihrer Vorteile bleibt die Evaluierung von PRMs (Process Reward Models) weitgehend unerforscht, insbesondere im multimodalen Bereich. Um diese Lücke zu schließen, vergleicht diese Arbeit zunächst aktuelle visuelle Large Language Models (VLLMs) als zwei Arten von Belohnungsmodellen: Output Reward Models (ORMs) und Process Reward Models (PRMs) auf mehreren Vision-Language-Benchmarks. Dabei zeigt sich, dass weder ORM noch PRM über alle Aufgaben hinweg konsistent überlegen sind und dass überlegene VLLMs nicht zwangsläufig eine bessere Belohnungsleistung erbringen. Um die Evaluierung weiter voranzutreiben, führen wir ViLBench ein, einen Vision-Language-Benchmark, der intensive Prozessbelohnungssignale erfordert. Bemerkenswerterweise erreicht OpenAI's GPT-4o mit Chain-of-Thought (CoT) nur eine Genauigkeit von 27,3 %, was die Herausforderung des Benchmarks für aktuelle VLLMs unterstreicht. Schließlich zeigen wir vorläufig einen vielversprechenden Weg auf, um die Lücke zwischen allgemeinen VLLMs und Belohnungsmodellen zu überbrücken – durch die Sammlung von 73,6K Vision-Language-Prozessbelohnungsdaten mithilfe eines verbesserten Baum-Such-Algorithmus erreicht unser 3B-Modell eine durchschnittliche Verbesserung von 3,3 % gegenüber dem Standard-CoT und bis zu 2,5 % im Vergleich zu seiner untrainierten Version auf ViLBench, indem es die Generierungen von OpenAI o1 auswählt. Wir veröffentlichen die Implementierungen unter https://ucsc-vlaa.github.io/ViLBench mit unserem Code, Modell und den Daten.
Es wurde gezeigt, dass Computer-Vision-Modelle Vorurteile über eine Vielzahl von Datensätzen und Aufgaben hinweg aufweisen und verstärken. Bestehende Methoden zur Quantifizierung von Vorurteilen in Klassifikationsmodellen konzentrieren sich hauptsächlich auf die Datensatzverteilung und die Modellleistung bei Untergruppen, wobei die internen Abläufe eines Modells außer Acht gelassen werden. Wir führen die Attention-IoU-Metrik (Attention Intersection over Union) und verwandte Scores ein, die Aufmerksamkeitskarten verwenden, um Vorurteile innerhalb der internen Repräsentationen eines Modells aufzudecken und Bildmerkmale zu identifizieren, die möglicherweise diese Vorurteile verursachen. Zunächst validieren wir Attention-IoU auf dem synthetischen Waterbirds-Datensatz und zeigen, dass die Metrik die Modellvorurteile genau misst. Anschließend analysieren wir den CelebA-Datensatz und stellen fest, dass Attention-IoU Korrelationen aufdeckt, die über Genauigkeitsunterschiede hinausgehen. Durch eine Untersuchung einzelner Attribute anhand des geschützten Attributs „Männlich“ untersuchen wir die unterschiedlichen Arten, wie Vorurteile in CelebA dargestellt werden. Schließlich demonstrieren wir durch eine Unterabtastung des Trainingssatzes zur Änderung von Attributkorrelationen, dass Attention-IoU potenzielle Störvariablen aufdeckt, die nicht in den Datensatzlabels vorhanden sind.
In vielen Robotik- und VR/AR-Anwendungen verursachen schnelle Kamerabewegungen einen hohen Grad an Bewegungsunschärfe, was dazu führt, dass bestehende Methoden zur Kamerapositionsschätzung versagen. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das Bewegungsunschärfe als wertvolle Information für die Bewegungsabschätzung nutzt, anstatt sie als unerwünschtes Artefakt zu behandeln. Unser Ansatz funktioniert, indem ein dichtes Bewegungsflussfeld und eine monokulare Tiefenkarte direkt aus einem einzigen bewegungsunscharfen Bild vorhergesagt werden. Anschließend ermitteln wir die momentane Kamerageschwindigkeit, indem wir ein lineares kleinstes Quadrate-Problem unter der Annahme kleiner Bewegungen lösen. Im Wesentlichen erzeugt unsere Methode eine IMU-ähnliche Messung, die schnelle und aggressive Kamerabewegungen robust erfasst. Um unser Modell zu trainieren, erstellen wir einen umfangreichen Datensatz mit realistischer synthetischer Bewegungsunschärfe, abgeleitet aus ScanNet++v2, und verfeinern unser Modell weiter, indem wir es end-to-end auf realen Daten mit unserer vollständig differenzierbaren Pipeline trainieren. Umfangreiche Auswertungen auf realen Benchmarks zeigen, dass unsere Methode state-of-the-art Schätzungen für die Winkel- und Translationsgeschwindigkeit erreicht und aktuelle Methoden wie MASt3R und COLMAP übertrifft.
Wissensdestillation kann eine kosteneffiziente Technik sein, um Wissen in großen Sprachmodellen zu destillieren, wenn die Ausgabe-Logits des Lehrers vorab berechnet und zwischengespeichert werden können. Die erfolgreiche Anwendung dieser Methode auf das Vortraining bleibt jedoch weitgehend unerforscht. In dieser Arbeit zeigen wir, dass naive Ansätze für spärliche Wissensdestillation, wie das Zwischenspeichern von Top-K-Wahrscheinlichkeiten, obwohl intuitiv, verzerrte Schätzungen der Wahrscheinlichkeitsverteilung des Lehrers für den Schüler liefern, was zu suboptimaler Leistung und Kalibrierung führt. Wir schlagen eine auf Importance Sampling basierende Methode vor, die `Random Sampling Knowledge Distillation`, die unverzerrte Schätzungen liefert, den Gradienten im Erwartungswert erhält und deutlich spärlichere Logits speichert. Unsere Methode ermöglicht eine schnellere Ausbildung von Schülermodellen mit minimalem Overhead (<10%) im Vergleich zum Training auf Basis der Kreuzentropie, während sie eine wettbewerbsfähige Leistung im Vergleich zur vollständigen Destillation über eine Reihe von Modellgrößen von 300M bis 3B beibehält.
Jüngste Fortschritte bei autoregressiven und Diffusionsmodellen haben zu einer starken Leistung bei der Bildgenerierung mit kurzen Szenentexten geführt. Die Erzeugung von kohärentem, langem Text in Bildern, wie Absätzen in Präsentationen oder Dokumenten, bleibt jedoch eine große Herausforderung für aktuelle generative Modelle. Wir präsentieren die erste Arbeit, die sich speziell auf die Generierung von langen Textbildern konzentriert und damit eine kritische Lücke in bestehenden Text-zu-Bild-Systemen schließt, die typischerweise nur kurze Phrasen oder einzelne Sätze verarbeiten. Durch eine umfassende Analyse der neuesten autoregressiven Generationsmodelle identifizieren wir den Bild-Tokenizer als einen kritischen Engpass bei der Textgenerierungsqualität. Um dies zu beheben, führen wir einen neuartigen, textorientierten binären Tokenizer ein, der optimiert ist, um detaillierte Szenentextmerkmale zu erfassen. Mit unserem Tokenizer entwickeln wir \ModelName, ein multimodales autoregressives Modell, das sich durch die Erzeugung hochwertiger langer Textbilder mit beispielloser Treue auszeichnet. Unser Modell bietet eine robuste Steuerbarkeit, die die Anpassung von Texteigenschaften wie Schriftstil, Größe, Farbe und Ausrichtung ermöglicht. Umfangreiche Experimente zeigen, dass \ModelName~SD3.5 Large~sd3 und GPT4o~gpt4o mit DALL-E 3~dalle3 bei der präzisen, konsistenten und flexiblen Generierung von langem Text deutlich übertrifft. Neben seinen technischen Errungenschaften eröffnet \ModelName~spannende Möglichkeiten für innovative Anwendungen wie die verschachtelte Dokument- und PowerPoint-Generierung und setzt damit eine neue Grenze in der langen Textbildgenerierung.
Reinforcement Learning (RL) ist eine entscheidende Komponente der Nachschulung großer Sprachmodelle (LLMs). Allerdings sind die bestehenden On-Policy-Algorithmen, die für die Nachschulung verwendet werden, inhärent inkompatibel mit der Nutzung von Experience-Replay-Buffern, die skalierbar durch verteilte Off-Policy-Akteure gefüllt werden können, um die Exploration mit steigender Rechenleistung zu verbessern. Wir schlagen vor, diesen Vorteil von Replay-Buffern effizient durch Trajectory Balance mit Asynchronität (TBA), ein massiv skalierbares RL-System für LLMs, zu nutzen. Im Gegensatz zu bestehenden Ansätzen verwendet TBA einen größeren Anteil der Rechenleistung für die Suche und erzeugt kontinuierlich Off-Policy-Daten für einen zentralen Replay-Buffer. Ein Trainingsknoten entnimmt gleichzeitig Daten aus diesem Buffer basierend auf Belohnung oder Aktualität, um die Policy mithilfe von Trajectory Balance (TB), einem diversitätsfördernden RL-Ziel, das für GFlowNets eingeführt wurde, zu aktualisieren. TBA bietet drei wesentliche Vorteile: (1) Entkopplung von Training und Suche, wodurch die Trainingszeit um das 4-fache oder mehr verkürzt wird; (2) verbesserte Diversität durch großflächiges Off-Policy-Sampling; und (3) skalierbare Suche für Umgebungen mit spärlichen Belohnungen. Bei mathematischem Denken, Präferenzabstimmung und automatisiertem Red-Teaming (vielfältige und repräsentative Nachschulungsaufgaben) erzielt TBA Geschwindigkeits- und Leistungsverbesserungen gegenüber starken Baselines.
Die Kategorie-basierte 3D/6D-Posenschätzung ist ein entscheidender Schritt hin zu einem umfassenden Verständnis von 3D-Szenen, was eine Vielzahl von Anwendungen in der Robotik und der verkörperten KI ermöglichen würde. Neuere Arbeiten haben neuronale Netzmodelle untersucht, die eine Reihe von 2D- und 3D-Aufgaben aus einer Analyse-durch-Synthese-Perspektive angehen. Trotz der deutlich verbesserten Robustheit gegenüber teilweiser Verdeckung und Domänenverschiebungen waren diese Methoden stark auf 3D-Annotationen für teil-kontrastives Lernen angewiesen, was sie auf eine begrenzte Anzahl von Kategorien beschränkt und eine effiziente Skalierung behindert. In dieser Arbeit stellen wir DINeMo vor, ein neuartiges neuronales Netzmodell, das ohne 3D-Annotationen trainiert wird, indem es Pseudo-Korrespondenzen nutzt, die aus großen visuellen Grundlagenmodellen gewonnen werden. Wir verwenden eine bidirektionale Methode zur Erzeugung von Pseudo-Korrespondenzen, die sowohl lokale Erscheinungsmerkmale als auch globale Kontextinformationen nutzt. Experimentelle Ergebnisse auf Auto-Datensätzen zeigen, dass unser DINeMo die bisherige Null- und Few-Shot-3D-Posenschätzung deutlich übertrifft und die Lücke zu vollständig überwachten Methoden um 67,3 % verringert. Unser DINeMo skaliert auch effektiv und effizient, wenn während des Trainings mehr unmarkierte Bilder einbezogen werden, was die Vorteile gegenüber überwachten Lernmethoden, die auf 3D-Annotationen angewiesen sind, demonstriert. Unsere Projektseite ist verfügbar unter https://analysis-by-synthesis.github.io/DINeMo/.
Die Schätzung von Bewegung in Videos ist ein grundlegendes Problem der Computer Vision mit zahlreichen nachgelagerten Anwendungen, einschließlich kontrollierbarer Videogenerierung und Robotik. Aktuelle Lösungen werden hauptsächlich mit synthetischen Daten trainiert oder erfordern die Anpassung situationsspezifischer Heuristiken, was die Fähigkeiten dieser Modelle in realen Kontexten von Natur aus einschränkt. Trotz jüngster Fortschritte im groß angelegten, selbstüberwachten Lernen aus Videos bleibt die Nutzung solcher Repräsentationen für die Bewegungsschätzung relativ unerforscht. In dieser Arbeit entwickeln wir Opt-CWM, eine selbstüberwachte Technik zur Schätzung von Fluss und Okklusion aus einem vortrainierten Modell zur Vorhersage des nächsten Bildes. Opt-CWM funktioniert, indem es lernt, kontrafaktische Sonden zu optimieren, die Bewegungsinformationen aus einem Basis-Videomodell extrahieren, wodurch der Bedarf an festen Heuristiken vermieden wird, während es auf uneingeschränkten Videoeingaben trainiert wird. Wir erreichen state-of-the-art Leistung bei der Bewegungsschätzung in realen Videos, ohne dabei auf annotierte Daten angewiesen zu sein.
Score-basierte oder Diffusionsmodelle erzeugen hochwertige tabellarische Daten und übertreffen dabei GAN-basierte und VAE-basierte Modelle. Allerdings benötigen diese Methoden eine erhebliche Trainingszeit. In diesem Artikel stellen wir RecTable vor, das das Modellierungskonzept des rectified flow nutzt, das beispielsweise bei der Text-zu-Bild- und Text-zu-Video-Generierung Anwendung findet. RecTable zeichnet sich durch eine einfache Architektur aus, die aus wenigen gestapelten Gated-Linear-Unit-Blöcken besteht. Darüber hinaus sind auch unsere Trainingsstrategien einfach und beinhalten eine gemischte Rauschverteilung sowie eine Logit-Normal-Zeitschrittverteilung. Unsere Experimente zeigen, dass RecTable eine wettbewerbsfähige Leistung im Vergleich zu mehreren state-of-the-art Diffusions- und Score-basierten Modellen erzielt, während die erforderliche Trainingszeit reduziert wird. Unser Code ist unter https://github.com/fmp453/rectable verfügbar.
Die Analyse der Dokumentstruktur, auch bekannt als Dokumentlayoutanalyse, ist entscheidend für das Verständnis sowohl des physischen Layouts als auch der logischen Struktur von Dokumenten und dient der Informationsbeschaffung, der Dokumentenzusammenfassung, der Wissensextraktion usw. Die Hierarchische Dokumentstrukturanalyse (HDSA) zielt speziell darauf ab, die hierarchische Struktur von Dokumenten wiederherzustellen, die mit Autorensoftware mit hierarchischen Schemata erstellt wurden. Bisherige Forschungen haben hauptsächlich zwei Ansätze verfolgt: Der eine konzentriert sich darauf, spezifische Teilaufgaben der HDSA isoliert zu bewältigen, wie z.B. die Tabellenerkennung oder die Vorhersage der Lesereihenfolge, während der andere einen einheitlichen Rahmen verwendet, der mehrere Zweige oder Module umfasst, die jeweils für eine bestimmte Aufgabe entwickelt wurden. In dieser Arbeit schlagen wir einen einheitlichen Ansatz zur Vorhersage von Beziehungen für die HDSA vor, genannt UniHDSA, der verschiedene HDSA-Teilaufgaben als Beziehungsvorhersageprobleme behandelt und die Beziehungsvorhersage-Labels in einen einheitlichen Label-Raum konsolidiert. Dies ermöglicht es einem einzelnen Beziehungsvorhersage-Modul, mehrere Aufgaben gleichzeitig zu bewältigen, sei es auf Seiten- oder Dokumentebene. Um die Wirksamkeit von UniHDSA zu validieren, entwickeln wir ein multimodales End-to-End-System, das auf Transformer-Architekturen basiert. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Ansatz auf einem Benchmark für die hierarchische Dokumentstrukturanalyse, Comp-HRDoc, state-of-the-art Leistung erzielt und auf einem groß angelegten Dokumentlayoutanalyse-Datensatz, DocLayNet, wettbewerbsfähige Ergebnisse liefert, was die Überlegenheit unserer Methode über alle Teilaufgaben hinweg effektiv veranschaulicht. Der Comp-HRDoc-Benchmark und die Konfigurationen von UniHDSA sind öffentlich unter https://github.com/microsoft/CompHRDoc verfügbar.
Die Vorhersage des Überlebens bei Brustkrebs in der computergestützten Pathologie stellt aufgrund der Tumorheterogenität eine bemerkenswerte Herausforderung dar. Beispielsweise können verschiedene Regionen desselben Tumors in pathologischen Bildern unterschiedliche morphologische und molekulare Merkmale aufweisen. Dies erschwert die Extraktion repräsentativer Merkmale aus Ganzschnittbildern (Whole Slide Images, WSIs), die das aggressive Potenzial des Tumors und die wahrscheinlichen Überlebensergebnisse wirklich widerspiegeln. In diesem Artikel präsentieren wir PathoHR, eine neuartige Pipeline zur präzisen Vorhersage des Brustkrebsüberlebens, die pathologische Bilder jeder Größe verbessert, um ein effektiveres Merkmalenlernen zu ermöglichen. Unser Ansatz umfasst (1) die Integration eines plug-and-play High-Resolution Vision Transformers (ViT), um die patch-basierte WSI-Darstellung zu verbessern und eine detailliertere und umfassendere Merkmalsextraktion zu ermöglichen, (2) die systematische Bewertung mehrerer fortschrittlicher Ähnlichkeitsmetriken zum Vergleich der aus WSIs extrahierten Merkmale, wodurch der Repräsentationslernprozess optimiert wird, um Tumorcharakteristika besser zu erfassen, (3) den Nachweis, dass kleinere Bildpatches, die nach der vorgeschlagenen Pipeline verbessert wurden, eine gleichwertige oder überlegene Vorhersagegenauigkeit im Vergleich zu rohen größeren Patches erreichen können, während der Rechenaufwand erheblich reduziert wird. Experimentelle Ergebnisse bestätigen, dass PathoHR eine potenzielle Möglichkeit bietet, die verbesserte Bildauflösung mit optimiertem Merkmalenlernen zu integrieren, um die computergestützte Pathologie voranzutreiben und eine vielversprechende Richtung für eine genauere und effizientere Vorhersage des Brustkrebsüberlebens aufzeigt. Der Code wird unter https://github.com/AIGeeksGroup/PathoHR verfügbar sein.
Schreibassistenten (z. B. Grammarly, Microsoft Copilot) erzeugen traditionell vielfältige Bildbeschreibungen, indem sie syntaktische und semantische Variationen verwenden, um Bildkomponenten zu beschreiben. Menschlich verfasste Bildunterschriften priorisieren jedoch die Vermittlung einer zentralen Botschaft neben visuellen Beschreibungen unter Verwendung pragmatischer Hinweise. Um die pragmatische Vielfalt zu verbessern, ist es entscheidend, alternative Wege zu erforschen, diese Botschaften in Verbindung mit visuellen Inhalten zu kommunizieren. Um diese Herausforderung zu bewältigen, schlagen wir RONA vor, eine neuartige Prompting-Strategie für Multimodale Große Sprachmodelle (MLLM), die Kohärenzrelationen als Variationsachse nutzt. Wir zeigen, dass RONA Bildunterschriften mit besserer Gesamtvielfalt und Übereinstimmung mit der Grundwahrheit erzeugt, verglichen mit MLLM-Baselines über mehrere Domänen hinweg. Unser Code ist verfügbar unter: https://github.com/aashish2000/RONA