papers.description
Wir stellen Depth Anything 3 (DA3) vor, ein Modell, das aus einer beliebigen Anzahl visueller Eingaben – mit oder ohne bekannte Kameraposen – räumlich konsistente Geometrie vorhersagt. Im Streben nach minimaler Modellierung liefert DA3 zwei zentrale Erkenntnisse: Ein einfacher Transformer (z. B. ein vanilla DINO-Encoder) ist als Backbone ohne architektonische Spezialisierung ausreichend, und ein singuläres Depth-Ray-Vorhersageziel macht komplexes Multi-Task-Lernen überflüssig. Durch unser Teacher-Student-Trainingsparadigma erreicht das Modell ein Maß an Detailtreue und Generalisierung, das mit Depth Anything 2 (DA2) vergleichbar ist. Wir etablieren einen neuen Benchmark für visuelle Geometrie, der Kameraposenschätzung, Geometrie aus beliebigen Blickwinkeln und visuelles Rendering abdeckt. Auf diesem Benchmark setzt DA3 einen neuen State-of-the-Art über alle Aufgaben hinweg und übertrifft den bisherigen SOTA VGGT im Durchschnitt um 44,3 % bei der Kameraposengenauigkeit und um 25,1 % bei der geometrischen Genauigkeit. Darüber hinaus übertrifft es DA2 in der monokularen Tiefenschätzung. Alle Modelle werden ausschließlich auf öffentlichen akademischen Datensätzen trainiert.
Ein Weltmodell ermöglicht es einem intelligenten Agenten, sich vorzustellen, vorherzusagen und darüber zu schlussfolgern, wie sich die Welt als Reaktion auf seine Handlungen entwickelt, und dementsprechend zu planen und zu strategisieren. Während aktuelle Videogenerierungsmodelle realistische Bildsequenzen erzeugen, arbeiten sie typischerweise im Prompt-zu-Vollvideo-Modus ohne kausale Steuerung, Interaktivität oder langfristige Konsistenz, die für zielgerichtetes Schlussfolgern erforderlich sind. Bestehende Ansätze zur Weltmodellierung konzentrieren sich hingegen oft auf eingeschränkte Domänen (z.B. physikalische, Spiel- oder 3D-Szenen-Dynamiken) mit begrenzter Tiefe und Steuerbarkeit und haben Schwierigkeiten, sich über verschiedene Umgebungen und Interaktionsformate hinweg zu verallgemeinern. In dieser Arbeit stellen wir PAN vor, ein allgemeines, interagierbares und langfristiges Weltmodell, das zukünftige Weltzustände durch hochwertige Videosimulation vorhersagt, die auf Verlauf und natürlichen Sprachhandlungen konditioniert ist. PAN verwendet die Generative Latent Prediction (GLP)-Architektur, die ein autoregressives latentes Dynamik-Rückgrat auf Basis eines Large Language Models (LLM) mit einem Video-Diffusion-Decoder kombiniert. Das LLM-basierte Rückgrat verankert die Simulation in umfangreichem textbasiertem Wissen und ermöglicht die Konditionierung auf sprachlich spezifizierte Handlungen, während der Decoder perceptuell detailreiche und zeitlich kohärente visuelle Beobachtungen rekonstruiert. Dies führt zu einer Vereinheitlichung von latentem Raum-Schlussfolgern (Imagination) und realisierbarer Weltdynamik (Realität). Trainiert auf großskaligen Video-Handlungs-Paaren aus verschiedenen Domänen, unterstützt PAN offene, handlungskonditionierte Simulation mit kohärenter, langfristiger Dynamik. Umfangreiche Experimente zeigen, dass PAN im Vergleich zu anderen Videogeneratoren und Weltmodellen eine hohe Leistung in handlungskonditionierter Weltsimulation, langfristiger Vorhersage und simulativer Reasoningfähigkeit erreicht – ein Schritt hin zu allgemeinen Weltmodellen, die prädiktive Simulationen zukünftiger Weltzustände zum Schlussfolgern und Handeln ermöglichen.
Diffusionsmodelle haben Schwierigkeiten, über ihre Trainingsauflösungen hinaus zu skalieren, da das direkte Sampling in hoher Auflösung langsam und kostspielig ist, während die nachträgliche Bildsuperauflösung (Image Super-Resolution, ISR) Artefakte und zusätzliche Latenz durch die Operation nach der Dekodierung einführt. Wir präsentieren den Latent Upscaler Adapter (LUA), ein leichtgewichtiges Modul, das die Superauflösung direkt auf dem latenten Code des Generators vor dem finalen VAE-Dekodierungsschritt durchführt. LUA integriert sich als Drop-in-Komponente, erfordert keine Modifikationen des Basismodells oder zusätzliche Diffusionsstufen und ermöglicht die Synthese in hoher Auflösung durch einen einzigen Vorwärtsdurchlauf im latenten Raum. Ein gemeinsamer Swin-Stil-Backbone mit skalienspezifischen Pixel-Shuffle-Köpfen unterstützt 2x- und 4x-Faktoren und bleibt kompatibel mit Bildraum-SR-Baselines, wodurch eine vergleichbare wahrgenommene Qualität bei nahezu 3x geringerer Dekodierungs- und Upscaling-Zeit erreicht wird (nur +0,42 s für die 1024 px-Generierung aus 512 px im Vergleich zu 1,87 s für Pixelraum-SR unter Verwendung derselben SwinIR-Architektur). Darüber hinaus zeigt LUA eine starke Generalisierung über die latenten Räume verschiedener VAEs, was die einfache Bereitstellung ohne Neutraining von Grund auf für jeden neuen Decoder ermöglicht. Umfangreiche Experimente zeigen, dass LUA die Qualität der nativen Hochauflösungsgenerierung eng erreicht und gleichzeitig einen praktischen und effizienten Weg zur skalierbaren, hochqualitativen Bildsynthese in modernen Diffusionspipelines bietet.
Black-Box-Distillation erzeugt studentische Large Language Models (LLMs), indem sie ausschließlich aus den Textausgaben eines proprietären Lehrermodells lernen, ohne Zugang zu dessen internen Logits oder Parametern. In dieser Arbeit führen wir Generative Adversarial Distillation (GAD) ein, welches On-Policy- und Black-Box-Distillation ermöglicht. GAD formuliert das studentische LLM als Generator und trainiert einen Discriminator, um dessen Antworten von denen des Lehrermodells zu unterscheiden, wodurch ein Minimax-Spiel entsteht. Der Discriminator fungiert als ein On-Policy-Belohnungsmodell, das sich gemeinsam mit dem Studenten weiterentwickelt und dadurch stabile, adaptive Rückmeldungen liefert. Experimentelle Ergebnisse zeigen, dass GAD durchgängig die häufig verwendete Sequenz-level Wissensdistillation übertrifft. Insbesondere wird Qwen2.5-14B-Instruct (Student), das mit GAD trainiert wurde, auf der LMSYS-Chat automatischen Bewertung vergleichbar mit seinem Lehrer, GPT-5-Chat. Die Ergebnisse etablieren GAD als ein vielversprechendes und effektives Paradigma für die Black-Box-Distillation von LLMs.
Während spezialisierte KI-Modelle bei isolierten Videoaufgaben wie Generierung oder Verständnis hervorragende Leistungen erbringen, erfordern reale Anwendungen komplexe, iterative Workflows, die diese Fähigkeiten kombinieren. Um diese Lücke zu schließen, stellen wir UniVA vor – ein quelloffenes, universell fähiges Multi-Agenten-Framework für die nächste Generation von Video-Generalisten, das Videoverständnis, Segmentierung, Bearbeitung und Generierung in kohärenten Workflows vereint. UniVA nutzt eine Plan-and-Act-Dual-Agenten-Architektur, die einen hochautomatisierten und proaktiven Workflow antreibt: Ein Planer-Agent interpretiert Benutzerabsichten und zerlegt sie in strukturierte Videoverarbeitungsschritte, während Ausführer-Agenten diese über modulare, MCP-basierte Tool-Server (für Analyse, Generierung, Bearbeitung, Tracking etc.) ausführen. Durch einen hierarchischen Mehr-Ebenen-Speicher (globales Wissen, Aufgabenkontext und benutzerspezifische Präferenzen) erhält UniVA langfristige Reasoning-Fähigkeiten, kontextuelle Kontinuität und Agenten-Kommunikation aufrecht und ermöglicht so interaktive und selbstreflektierende Videocreation mit vollständiger Nachverfolgbarkeit. Dieses Design ermöglicht iterative und beliebig konditionierte Video-Workflows (z.B. text-/bild-/videokonditionierte Generierung → Mehrfach-Bearbeitung → Objektsegmentierung → kompositionelle Synthese), die zuvor mit Einzweckmodellen oder monolithischen Video-Sprach-Modellen nur umständlich zu realisieren waren. Wir stellen zudem UniVA-Bench vor, eine Benchmark-Suite für mehrstufige Videoaufgaben aus den Bereichen Verständnis, Bearbeitung, Segmentierung und Generierung, um solche agentenbasierten Videosysteme rigoros zu evaluieren. Sowohl UniVA als auch UniVA-Bench sind vollständig quelloffen und sollen die Forschung zu interaktiver, agentenbasierter und allgemeiner Video-Intelligenz für die nächste Generation multimodaler KI-Systeme vorantreiben. (https://univa.online/)
Group Relative Policy Optimization (GRPO) hat sich als äußerst nützlich für das Post-Training von Large Language Models (LLMs) erwiesen. Bei GRPO werden Prompts vom Modell beantwortet, und durch Reinforcement Learning werden bevorzugte Completion-Vervollständigungen erlernt. Aufgrund des geringen Kommunikationsaufkommens eignet sich GRPO von Natur aus für dezentralisiertes Training, da die Prompts gleichzeitig von mehreren Knoten beantwortet und dann in Form von Zeichenketten ausgetauscht werden können. In dieser Arbeit präsentieren wir den ersten adversariellen Angriff auf dezentralisiertes GRPO. Wir zeigen, dass böswillige Parteien solche Systeme vergiften können, indem sie in Out-of-Context- und In-Context-Angriffen beliebige schädliche Tokens in harmlose Modelle einschleusen. Anhand empirischer Beispiele aus den Bereichen Mathematik und Programmierung zeigen wir, dass adversarielle Angriffe problemlos die benignen Knoten vergiften und ihr lokales LLM-Post-Training verseuchen können, wobei Angriffserfolgsraten von bis zu 100 % in nur 50 Iterationen erreicht werden. Wir schlagen zwei Verteidigungsstrategien gegen diese Angriffe vor, abhängig davon, ob alle Benutzer dasselbe Modell oder unterschiedliche Modelle trainieren. Wir zeigen, dass diese Verteidigungsmaßnahmen Stoppraten von bis zu 100 % erreichen können, was den Angriff unmöglich macht.
Große Sprachmodelle (LLMs) haben bemerkenswerte Durchbrüche in den Bereichen logisches Denken, Erkenntnisgewinnung und Werkzeugnutzung erzielt, doch die Verkettung dieser Fähigkeiten zu erweiterten Prozessen in einer Größenordnung, wie sie routinemäßig von Menschen, Organisationen und Gesellschaften ausgeführt werden, blieb bisher unerreicht. Die Modelle weisen eine anhaltende Fehlerrate auf, die eine Hochskalierung verhindert: So zeigten beispielsweise jüngste Experimente im Benchmark-Bereich "Türme von Hanoi", dass der Prozess nach spätestens einigen hundert Schritten unweigerlich entgleist. Obwohl die LLM-Forschung daher oft noch an Aufgaben mit relativ wenigen abhängigen logischen Schritten gemessen wird, richtet sich die Aufmerksamkeit zunehmend auf die Fähigkeit (oder Unfähigkeit) von LLMs, langreichweitige Aufgaben zu bewältigen. Dieses Papier beschreibt MAKER, das erste System, das eine Aufgabe mit über einer Million LLM-Schritten fehlerfrei löst und prinzipiell weit über dieses Niveau hinaus skaliert. Der Ansatz beruht auf einer extremen Zerlegung einer Aufgabe in Teilaufgaben, die jeweils von spezialisierten Mikroagenten bearbeitet werden können. Der durch die Zerlegung erreichte hohe Modularitätsgrad ermöglicht eine Fehlerkorrektur in jedem Schritt durch ein effizientes Multi-Agenten-Abstimmungsverfahren. Diese Kombination aus extremer Zerlegung und Fehlerkorrektur macht die Skalierung möglich. Die Ergebnisse deuten somit darauf hin, dass massiv zerlegte agentenbasierte Prozesse (MDAPs) anstelle einer kontinuierlichen Verbesserung aktueller LLMs einen Weg zur effizienten Lösung von Problemen auf der Ebene von Organisationen und Gesellschaften bieten könnten.
Große Sprachmodelle haben bedeutende Fortschritte bei komplexen, aber einfach verifizierbaren Problemen erzielt, kämpfen jedoch nach wie vor mit der Entdeckung des Unbekannten. In diesem Artikel stellen wir AlphaResearch vor, einen autonomen Forschungsagenten, der darauf ausgelegt ist, neue Algorithmen für offene Probleme zu entdecken. Um die Machbarkeit und Innovation des Entdeckungsprozesses zu synergisieren, konstruieren wir eine neuartige duale Forschungsumgebung, indem wir die ausführungsbasierte Verifikation mit einer simulierten Peer-Review-Umgebung der realen Welt kombinieren. AlphaResearch entdeckt neue Algorithmen durch iteratives Durchlaufen der folgenden Schritte: (1) Neue Ideen vorschlagen, (2) Die Ideen in der dualen Forschungsumgebung verifizieren, (3) Die Forschungsvorschläge für eine bessere Leistung optimieren. Um einen transparenten Evaluierungsprozess zu fördern, entwickeln wir AlphaResearchComp, einen neuen Evaluierungsbenchmark, der einen Wettbewerb mit acht offenen algorithmischen Problemen umfasst. Jedes Problem wurde sorgfältig kuratiert und durch ausführbare Pipelines, objektive Metriken und Reproduzierbarkeitsprüfungen verifiziert. AlphaResearch erzielt eine Win-Rate von 2/8 im direkten Vergleich mit menschlichen Forschern, was die Möglichkeit beschleunigter Algorithmenentdeckung mit LLMs demonstriert. Bemerkenswerterweise erreicht der von AlphaResearch für das „Kreise packen“-Problem entdeckte Algorithmus die beste bekannte Leistung und übertrifft damit die Ergebnisse menschlicher Forscher sowie starke Baselines aus aktuellen Arbeiten (z.B. AlphaEvolve). Zusätzlich führen wir eine umfassende Analyse der verbleibenden Herausforderungen in den 6/8 Fehlschlägen durch, die wertvolle Einblicke für zukünftige Forschung bietet.
Große Sprachmodelle (LLMs) werden zunehmend mit klassischen Optimierungstechniken wie AdamW trainiert, um Konvergenz und Generalisierung zu verbessern. Die Mechanismen, durch die quanteninspirierte Methoden das klassische Training verbessern, sind jedoch noch unzureichend erforscht. Wir führen Superpositional Gradient Descent (SGD) ein, einen neuartigen Optimierer, der Gradientenupdates durch das Einbringen von Quantenschaltkreis-Perturbationen mit Quantensuperposition verbindet. Wir stellen einen mathematischen Rahmen vor und implementieren hybride quantenklassische Schaltkreise in PyTorch und Qiskit. Bei synthetischer Sequenzklassifikation und Large-Scale-LLM-Finetuning konvergiert SGD schneller und erzielt einen niedrigeren finalen Loss als AdamW. Trotz vielversprechender Ergebnisse schränken Skalierbarkeit und Hardwarebeschränkungen die Verbreitung ein. Insgesamt bietet diese Arbeit neue Einblicke in die Schnittstelle zwischen Quantencomputing und Deep Learning und weist praktische Wege auf, um Quantenprinzipien zur Steuerung und Verbesserung des Modellverhaltens zu nutzen.
Wir stellen Music Flamingo vor, ein neuartiges großes Audio-Sprach-Modell, das entwickelt wurde, um das Musikverständnis (einschließlich Songs) in grundlegenden Audiomodellen zu verbessern. Während die Audio-Sprach-Forschung rasante Fortschritte gemacht hat, bleibt Musik aufgrund ihrer dynamischen, mehrschichtigen und informationsdichten Natur eine Herausforderung. Der Fortschritt wurde weiterhin durch die Schwierigkeit eingeschränkt, offene Audio-Verständnismodelle zu skalieren, hauptsächlich aufgrund der Knappheit an hochwertigen Musikdaten und Annotationen. Infolgedessen sind frühere Modelle darauf beschränkt, kurze, hochrangige Beschreibungen zu produzieren, nur oberflächliche Fragen zu beantworten und zeigen eine begrenzte Generalisierung über verschiedene Musikkulturen hinweg. Um diese Herausforderungen zu bewältigen, haben wir MF-Skills kuratiert, einen großen Datensatz, der durch eine mehrstufige Pipeline erstellt wurde und reichhaltige Beschreibungen sowie Frage-Antwort-Paare liefert, die Harmonie, Struktur, Klangfarbe, Songtexte und kulturellen Kontext abdecken. Wir feintunen ein erweitertes Audio Flamingo 3-Grundgerüst auf MF-Skills und stärken weiterhin mehrere für das Musikverständnis relevante Fähigkeiten. Um die Denkfähigkeiten des Modells zu verbessern, führen wir ein Post-Training-Rezept ein: Wir beginnen zunächst mit einem Cold-Start auf MF-Think, einem neuartigen Chain-of-Thought-Datensatz, der in der Musiktheorie verankert ist, gefolgt von GRPO-basiertem bestärkendem Lernen mit maßgeschneiderten Belohnungen. Music Flamingo erzielt state-of-the-art Ergebnisse über 10+ Benchmarks für Musikverständnis und -denken hinweg und etabliert sich als generalistisches und musikalisch intelligentes Audio-Sprach-Modell. Über starke empirische Ergebnisse hinaus setzt Music Flamingo einen neuen Standard für fortgeschrittenes Musikverständnis, indem es demonstriert, wie Modelle sich von der oberflächlichen Erkennung hin zu einer geschichteten, menschenähnlichen Wahrnehmung von Songs bewegen können. Wir sind überzeugt, dass diese Arbeit sowohl einen Maßstab als auch eine Grundlage für die Community bietet, um die nächste Generation von Modellen zu entwickeln, die sich so bedeutungsvoll mit Musik auseinandersetzen wie Menschen.
Deep Research (DR) ist eine neuartige Agentenanwendung, die große Sprachmodelle (Large Language Models, LLMs) nutzt, um offene Fragestellungen zu bearbeiten. Sie erfordert die Integration verschiedener Fähigkeiten, darunter mehrstufiges Schlussfolgern, dokumenübergreifende Synthese und die Erstellung belegter, langformiger Antworten. Die Bewertung von DR bleibt eine Herausforderung, da die Antworten lang und vielfältig sind, viele gültige Lösungen zulassen und oft auf dynamischen Informationsquellen basieren. Wir stellen ResearchRubrics vor, einen standardisierten Benchmark für DR, der mit über 2.800+ Stunden menschlicher Arbeit erstellt wurde und realistische, domainenübergreifende Prompts mit 2.500+ feingranularen, von Experten verfassten Bewertungsrastern (Rubrics) kombiniert, um faktische Fundierung, Schlüssigkeit der Argumentation und Klarheit zu bewerten. Zudem schlagen wir einen neuen Komplexitätsrahmen vor, um DR-Aufgaben entlang dreier Achsen zu kategorisieren: konzeptionelle Breite, logische Verschachtelung und Exploration. Darüber hinaus entwickeln wir menschliche und modellbasierte Evaluierungsprotokolle, die die Einhaltung der Bewertungsraster für DR-Agenten messen. Wir evaluieren mehrere state-of-the-art DR-Systeme und stellen fest, dass selbst führende Agenten wie Gemini's DR und OpenAI's DR durchschnittlich weniger als 68 % Übereinstimmung mit unseren Bewertungsrastern erreichen, hauptsächlich aufgrund von übersehenem implizitem Kontext und unzureichendem Schlussfolgern auf Basis abgerufener Informationen. Unsere Ergebnisse unterstreichen die Notwendigkeit einer robusten, skalierbaren Bewertung von Deep-Research-Fähigkeiten. Zu diesem Zweck veröffentlichen wir ResearchRubrics (einschließlich aller Prompts, Bewertungsraster und Evaluierungscodes), um Fortschritte in Richtung gut begründeter Forschungsassistenten zu fördern.
Instruktionsbasierte Bildbearbeitungsmodelle haben kürzlich beeindruckende Leistungen erzielt und ermöglichen komplexe Bearbeitungen eines Eingabebildes anhand eines Multi-Instruktions-Prompts. Diese Modelle wenden jedoch jede Instruktion im Prompt mit einer festen Stärke an, was die Fähigkeit des Benutzers einschränkt, die Intensität einzelner Bearbeitungen präzise und kontinuierlich zu steuern. Wir stellen SliderEdit vor, ein Framework für kontinuierliche Bildbearbeitung mit fein abgestufter, interpretierbarer Instruktionskontrolle. Bei einer mehrteiligen Bearbeitungsanweisung entwirrt SliderEdit die einzelnen Instruktionen und macht jede als global trainierten Schieberegler verfügbar, was eine sanfte Anpassung ihrer Stärke ermöglicht. Im Gegensatz zu früheren Arbeiten, die schiebereglerbasierte Attributsteuerungen in der Text-zu-Bild-Generierung einführten – was typischerweise separate Trainings- oder Feinabstimmungsprozesse für jedes Attribut oder Konzept erforderte – lernt unsere Methode einen einzigen Satz von Low-Rank-Adaptationsmatrizen, die generalisierbar über diverse Bearbeitungen, Attribute und kompositionelle Anweisungen hinweg sind. Dies ermöglicht eine kontinuierliche Interpolation entlang einzelner Bearbeitungsdimensionen bei gleichzeitiger Bewahrung sowohl räumlicher Lokalität als auch globaler semantischer Konsistenz. Wir wenden SliderEdit auf state-of-the-art Bildbearbeitungsmodelle an, einschließlich FLUX-Kontext und Qwen-Image-Edit, und beobachten wesentliche Verbesserungen in der Bearbeitungskontrollierbarkeit, visuellen Konsistenz und Benutzersteuerbarkeit. Nach unserem besten Wissen sind wir die Ersten, die ein Framework für kontinuierliche, fein abgestufte Instruktionskontrolle in instruktionsbasierten Bildbearbeitungsmodellen erforschen und vorschlagen. Unsere Ergebnisse ebnen den Weg für interaktive, instruktionsgesteuerte Bildmanipulation mit kontinuierlicher und kompositioneller Kontrolle.
Eine effektive Mensch-Agenten-Kollaboration in physischen Umgebungen erfordert nicht nur das Verständnis dafür, worauf gehandelt werden soll, sondern auch, wo sich die handlungsrelevanten Elemente befinden und wie mit ihnen interagiert werden kann. Bestehende Ansätze operieren oft auf Objektebene oder behandeln die feinkörnige Affordanz-Erkennung disjointiert, wodurch eine kohärente, anweisungsgesteuerte Verankerung und Schlussfolgerung fehlt. In dieser Arbeit führen wir eine neue Aufgabe ein: Fein granulare 3D-verkörperte Reasoning, die von einem Agenten verlangt, für jedes referenzierte Affordanz-Element in einer 3D-Szene ein strukturiertes Triplett bestehend aus seiner räumlichen Position, Bewegungsart und Bewegungsachse auf Basis einer Aufgabenanweisung vorherzusagen. Zur Lösung dieser Aufgabe schlagen wir AffordBot vor, ein neuartiges Framework, das Multimodale Large Language Models (MLLMs) mit einem maßgeschneiderten Chain-of-Thought (CoT)-Reasoning-Paradigma integriert. Um die Lücke zwischen 3D-Eingabe und 2D-kompatiblen MLLMs zu überbrücken, rendern wir Rundumansichtsbilder der Szene und projizieren 3D-Elementkandidaten in diese Ansichten, um eine reiche visuelle Repräsentation zu formen, die mit der Szenengeometrie abgestimmt ist. Unsere CoT-Pipeline beginnt mit einer aktiven Wahrnehmungsphase, in der der MLLM aufgefordert wird, den informativsten Blickwinkel basierend auf der Anweisung auszuwählen, bevor mit einem schrittweisen Reasoning fortgefahren wird, um Affordanz-Elemente zu lokalisieren und plausible Interaktionsbewegungen abzuleiten. Evaluierungen auf dem SceneFun3D-Datensatz zeigen, dass AffordBot state-of-the-art Leistung erzielt und mit lediglich 3D-Punktwolken-Eingabe und MLLMs eine starke Generalisierungsfähigkeit und physikalisch fundierte Schlussfolgerung demonstriert.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zu beeindruckenden Leistungen in einer Reihe von Aufgaben geführt, dennoch bleibt das Befolgen komplexer Anweisungen (Advanced Instruction Following, IF) – insbesondere bei mehrschrittigen, komplexen und systemgesteuerten Instruktionen – eine große Herausforderung. Strenge Evaluierung und effektives Training für solche Fähigkeiten werden durch den Mangel an hochwertigen, menschlich annotierten Benchmarks und zuverlässigen, interpretierbaren Belohnungssignalen erschwert. In dieser Arbeit stellen wir AdvancedIF (diesen Benchmark werden wir in Kürze veröffentlichen) vor, einen umfassenden Benchmark mit über 1.600 Prompts und expertengeprüften Bewertungsrastern, die die Fähigkeit von LLMs bewerten, komplexe, mehrschrittige und systemweite Anweisungen zu befolgen. Weiterhin schlagen wir RIFL (Rubric-based Instruction-Following Learning) vor, eine neuartige Nachtrainings-Pipeline, die Rastergenerierung, einen feinabgestimmten Rasterverifizierer und Reward Shaping nutzt, um effektives Reinforcement Learning für das Befolgen von Anweisungen zu ermöglichen. Umfangreiche Experimente zeigen, dass RIFL die Befolgung von Anweisungen durch LLMs erheblich verbessert und einen absoluten Zuwachs von 6,7 % auf AdvancedIF sowie starke Ergebnisse auf öffentlichen Benchmarks erzielt. Unsere Ablationsstudien bestätigen die Wirksamkeit jeder Komponente in RIFL. Diese Arbeit etabliert Bewertungsraster als leistungsfähiges Werkzeug sowohl für das Training als auch für die Evaluierung von fortgeschrittenem IF in LLMs und ebnet den Weg für leistungsfähigere und zuverlässigere KI-Systeme.
Trotz Fortschritten in der Generierungsqualität mangelt es aktuellen Text-zu-Bild (T2I)-Modellen oft an Diversität und sie erzeugen homogene Ergebnisse. Diese Arbeit stellt ein Framework vor, das den Bedarf an einer robusten Diversitätsbewertung für T2I-Modelle adressiert. Unser Framework bewertet Diversität systematisch, indem es einzelne Konzepte und ihre relevanten Variationsfaktoren evaluiert. Zu den wichtigsten Beiträgen gehören: (1) eine neuartige Vorlage für humanevaluierte, nuancierte Diversitätsbewertung; (2) ein kuratiertes Prompt-Set, das diverse Konzepte mit ihren identifizierten Variationsfaktoren abdeckt (z.B. Prompt: Ein Bild eines Apfels, Variationsfaktor: Farbe); und (3) eine Methodik zum Vergleich von Modellen anhand humaner Annotationen mittels Binomialtests. Darüber hinaus vergleichen wir rigoros verschiedene Bild-Einbettungen für die Diversitätsmessung. Unser prinzipienbasierter Ansatz ermöglicht insbesondere die Rangordnung von T2I-Modellen nach ihrer Diversität und identifiziert Kategorien, in denen sie besondere Schwächen aufweisen. Diese Forschung bietet eine robuste Methodik und Erkenntnisse, die den Weg für Verbesserungen der Diversität von T2I-Modellen und die Entwicklung neuer Metriken ebnen.
Die Fähigkeit zur Kritik ist entscheidend dafür, dass Modelle sich selbst verbessern und als zuverlässige KI-Assistenten dienen können. Während dies in rein sprachbasierten Settings bereits umfassend erforscht wurde, bleibt die multimodale Kritikfähigkeit von Large Multimodal Models (LMMs) trotz ihrer wachsenden Fähigkeiten in Aufgaben wie Bildbeschreibung und visuellem Schließen weitgehend unerforscht. In dieser Arbeit stellen wir MM-CRITIC vor, einen ganzheitlichen Benchmark zur Bewertung der Kritikfähigkeit von LMMs in mehreren Dimensionen: grundlegende Kritik, Korrektur und Vergleich. MM-CRITIC umfasst 8 Hauptaufgabentypen und über 500 Aufgaben, sammelt Antworten verschiedener LMMs mit unterschiedlichen Modellgrößen und besteht aus 4471 Proben. Um die Zuverlässigkeit der Evaluation zu erhöhen, integrieren wir experteninformierte Referenzantworten in Bewertungsraster, die GPT-4o bei der Annotation von Antworten und der Generierung von Referenzkritiken anleiten. Diese dienen als Anker für vertrauenswürdige Beurteilungen. Umfangreiche Experimente validieren die Wirksamkeit von MM-CRITIC und liefern eine umfassende Bewertung der Kritikfähigkeiten führender LMMs in mehreren Dimensionen. Eine weiterführende Analyse zeigt wichtige Erkenntnisse, darunter die Korrelation zwischen Antwortqualität und Kritikfähigkeit sowie unterschiedliche Schwierigkeitsgrade der Kritik across verschiedenen Bewertungsdimensionen. Unser Code ist verfügbar unter https://github.com/MichealZeng0420/MM-Critic.
Stimmungen bezüglich der Reproduzierbarkeit zitierter Arbeiten in nachfolgender Literatur bieten Gemeinschaftsperspektiven und haben sich als vielversprechendes Signal für die tatsächliche Reproduzierbarkeit veröffentlichter Ergebnisse erwiesen. Um effektive Modelle für die Vorhersage von reproduzierbarkeitsorientierten Stimmungen zu trainieren und deren Korrelation mit Reproduzierbarkeit systematisch zu untersuchen, stellen wir den CC30k-Datensatz vor, der insgesamt 30.734 Zitationskontexte aus Publikationen zum maschinellen Lernen umfasst. Jeder Zitationskontext ist mit einem von drei reproduzierbarkeitsorientierten Stimmungslabels versehen: Positiv, Negativ oder Neutral, was die wahrgenommene Reproduzierbarkeit oder Replizierbarkeit der zitierten Arbeit widerspiegelt. Davon wurden 25.829 Kontexte durch Crowdsourcing annotiert, ergänzt durch Negativbeispiele, die durch eine kontrollierte Pipeline generiert wurden, um den Mangel an negativen Labels auszugleichen. Im Gegensatz zu traditionellen Stimmungsanalysedatensätzen konzentriert sich CC30k auf reproduzierbarkeitsorientierte Stimmungen und schließt damit eine Forschungslücke bei Ressourcen für computergestützte Reproduzierbarkeitsstudien. Der Datensatz wurde durch eine Pipeline erstellt, die robuste Datenbereinigung, sorgfältige Crowd-Auswahl und gründliche Validierung umfasst. Der resultierende Datensatz erreicht eine Labelgenauigkeit von 94%. Wir zeigten anschließend, dass sich die Leistung von drei großen Sprachmodellen bei der Klassifikation reproduzierbarkeitsorientierter Stimmungen nach dem Fine-Tuning mit unserem Datensatz signifikant verbessert. Der Datensatz bildet die Grundlage für groß angelegte Bewertungen der Reproduzierbarkeit von Publikationen im Bereich des maschinellen Lernens. Der CC30k-Datensatz und die zur Erstellung und Analyse des Datensatzes verwendeten Jupyter-Notebooks sind öffentlich unter https://github.com/lamps-lab/CC30k verfügbar.
Zero-Shot-Anomalieklassifizierung (AC) und -segmentierung (AS) zielen darauf ab, Defekte ohne Verwendung annotierter Stichproben zu identifizieren und zu umreißen. In diesem Artikel beleuchten wir eine Schlüsseleigenschaft, die von bestehenden Methoden übersehen wird: Normale Bildbereiche (Patches) industrieller Produkte finden typischerweise viele ähnliche Patches – nicht nur in 2D-Erscheinung, sondern auch in 3D-Formen –, während Anomalien vielfältig und isoliert bleiben. Um diese diskriminative Eigenschaft explizit zu nutzen, schlagen wir ein Mutual-Scoring-Framework (MuSc-V2) für Zero-Shot-AC/AS vor, das flexibel einzelne 2D-/3D- oder Multimodalität unterstützt. Konkret verbessert unsere Methode zunächst die 3D-Repräsentation durch Iteratives Punkt-Grouping (IPG), wodurch False Positives durch diskontinuierliche Oberflächen reduziert werden. Anschließend fusionieren wir mit Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) 2D-/3D-Nachbarschaftshinweise zu diskriminativeren Multi-Scale-Patch-Merkmalen für gegenseitiges Bewerten. Der Kern besteht aus einem Mutual-Scoring-Mechanismus (MSM), der Stichproben innerhalb jeder Modalität ermöglicht, sich gegenseitig zu bewerten, und Cross-modal Anomaly Enhancement (CAE), das 2D- und 3D-Bewertungen fusioniert, um modalitätsspezifisch fehlende Anomalien zurückzugewinnen. Finally, Re-scoring with Constrained Neighborhood (RsCon) unterdrückt Fehlklassifizierungen basierend auf Ähnlichkeit zu repräsentativeren Stichproben. Unser Framework funktioniert flexibel sowohl auf vollständigen Datensätzen als auch auf kleineren Teilmengen mit durchgängig robuster Leistung und gewährleistet nahtlose Anpassungsfähigkeit über verschiedene Produktlinien hinweg. Durch das neuartige Framework erzielt MuSc-V2 signifikante Leistungssteigerungen: ein AP-Zuwachs von +23,7 % auf dem MVTec 3D-AD-Datensatz und eine Steigerung von +19,3 % auf dem Eyecandies-Datensatz, womit es frühere Zero-Shot-Benchmarks übertrifft und sogar die meisten Few-Shot-Methoden übertrumpft. Der Code wird verfügbar sein unter https://github.com/HUST-SLOW/MuSc-V2.