Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren GLM-4.1V-Thinking, ein Vision-Sprache-Modell (VLM), das entwickelt wurde, um allgemeine multimodale Denkfähigkeiten voranzutreiben. In diesem Bericht teilen wir unsere zentralen Erkenntnisse aus der Entwicklung eines auf Denkfähigkeiten fokussierten Trainingsframeworks. Zunächst entwickeln wir ein leistungsstarkes Vision-Foundation-Modell mit erheblichem Potenzial durch groß angelegtes Pre-Training, das die obere Leistungsgrenze für das finale Modell setzt. Reinforcement Learning mit Curriculum Sampling (RLCS) erschließt dann das volle Potenzial des Modells, was zu einer umfassenden Fähigkeitssteigerung über eine Vielzahl von Aufgaben hinweg führt, darunter STEM-Problemstellungen, Videoverständnis, Inhaltserkennung, Programmierung, Verankerung, GUI-basierte Agenten und das Verständnis langer Dokumente. Um die Forschung in diesem Bereich zu fördern, stellen wir GLM-4.1V-9B-Thinking als Open-Source-Modell zur Verfügung, das Spitzenleistungen unter Modellen vergleichbarer Größe erzielt. In einer umfassenden Bewertung über 28 öffentliche Benchmarks übertrifft unser Modell Qwen2.5-VL-7B bei nahezu allen Aufgaben und erreicht vergleichbare oder sogar überlegene Leistungen auf 18 Benchmarks im Vergleich zum deutlich größeren Qwen2.5-VL-72B. Bemerkenswerterweise zeigt GLM-4.1V-9B-Thinking auch wettbewerbsfähige oder überlegene Leistungen im Vergleich zu Closed-Source-Modellen wie GPT-4o bei anspruchsvollen Aufgaben wie dem Verständnis langer Dokumente und STEM-Denkfähigkeiten, was seine starken Fähigkeiten weiter unterstreicht. Code, Modelle und weitere Informationen sind unter https://github.com/THUDM/GLM-4.1V-Thinking verfügbar.
Mathematisches Denken ist zum Aushängeschild des Fortschritts bei großen Sprachmodellen (LLMs) geworden, wobei neue Modelle auf Benchmarks wie MATH und AIME schnell menschliche Leistungsniveaus übertreffen. Doch während sich die Bestenlisten im Bereich Mathematik Woche für Woche verbessern, stellt sich die Frage: spiegeln diese Fortschritte eine breitere Problemlösungsfähigkeit wider oder handelt es sich lediglich um enges Overfitting? Um diese Frage zu beantworten, evaluieren wir über 20 Open-Weight-Modelle, die auf logisches Denken abgestimmt sind, anhand einer breiten Palette von Aufgaben, darunter Mathematik, wissenschaftliche Frage-Antwort-Systeme, Agentenplanung, Programmierung und standardmäßige Anweisungsbefolgung. Überraschenderweise stellen wir fest, dass die meisten Modelle, die in Mathematik erfolgreich sind, ihre Fortschritte nicht auf andere Domänen übertragen können. Um dieses Phänomen rigoros zu untersuchen, führen wir kontrollierte Experimente mit Qwen3-14B-Modellen durch, die ausschließlich mathematische Daten, aber unterschiedliche Abstimmungsmethoden verwenden. Wir stellen fest, dass Modelle, die mit Reinforcement Learning (RL) abgestimmt wurden, gut über Domänen hinweg generalisieren, während Modelle, die mit Supervised Fine-Tuning (SFT) abgestimmt wurden, oft allgemeine Fähigkeiten vergessen. Analysen von latenten Raumdarstellungen und Token-Raumverteilungsverschiebungen zeigen, dass SFT erhebliche Darstellungs- und Ausgabeverschiebungen verursacht, während RL die allgemeine Domänenstruktur bewahrt. Unsere Ergebnisse deuten darauf hin, dass es notwendig ist, die Standard-Rezepte für das Post-Training zu überdenken, insbesondere die Abhängigkeit von SFT-distillierten Daten zur Weiterentwicklung von Modellen für logisches Denken.
Wir präsentieren SciArena, eine offene und kollaborative Plattform zur Bewertung von Foundation-Modellen für Aufgaben im Bereich der wissenschaftlichen Literatur. Im Gegensatz zu traditionellen Benchmarks für das Verständnis und die Synthese wissenschaftlicher Literatur bindet SciArena die Forschungsgemeinschaft direkt ein, indem es dem Chatbot-Arena-Ansatz der Community-Abstimmung über Modellvergleiche folgt. Durch die Nutzung kollektiver Intelligenz bietet SciArena eine gemeinschaftsgesteuerte Bewertung der Modellleistung bei offenen wissenschaftlichen Aufgaben, die literaturgestützte, langformulierte Antworten erfordern. Die Plattform unterstützt derzeit 23 Open-Source- und proprietäre Foundation-Modelle und hat über 13.000 Stimmen von vertrauenswürdigen Forschern aus verschiedenen wissenschaftlichen Domänen gesammelt. Wir analysieren die bisher gesammelten Daten und bestätigen, dass die eingereichten Fragen vielfältig sind, sich an den realen Anforderungen der Literatur orientieren und dass die teilnehmenden Forscher eine starke Selbstkonsistenz und Inter-Annotator-Übereinstimmung in ihren Bewertungen zeigen. Wir diskutieren die Ergebnisse und Erkenntnisse basierend auf der Modell-Rangliste. Um die Forschung zur Entwicklung modellbasierter automatisierter Bewertungssysteme für Literaturaufgaben weiter voranzutreiben, veröffentlichen wir SciArena-Eval, einen Meta-Bewertungs-Benchmark, der auf unseren gesammelten Präferenzdaten basiert. Der Benchmark misst die Genauigkeit von Modellen bei der Beurteilung der Antwortqualität, indem er ihre paarweisen Bewertungen mit menschlichen Stimmen vergleicht. Unsere Experimente verdeutlichen die Herausforderungen des Benchmarks und betonen die Notwendigkeit zuverlässigerer automatisierter Bewertungsmethoden.
Multimodale Embedding-Modelle, die auf kausalen Vision-Language-Modellen (VLMs) basieren, haben in verschiedenen Aufgaben vielversprechende Ergebnisse gezeigt. Allerdings weisen aktuelle Ansätze drei wesentliche Einschränkungen auf: Die Verwendung von kausaler Aufmerksamkeit in VLM-Backbones ist für Embedding-Aufgaben suboptimal; Skalierbarkeitsprobleme aufgrund der Abhängigkeit von hochwertigen, gepaarten annotierten Daten für kontrastives Lernen; und eine begrenzte Vielfalt in Trainingszielen und Daten. Um diese Probleme zu adressieren, schlagen wir MoCa vor, ein zweistufiges Framework zur Transformation vortrainierter VLMs in effektive bidirektionale multimodale Embedding-Modelle. Die erste Stufe, Modality-aware Continual Pre-training, führt ein gemeinsames Rekonstruktionsziel ein, das gleichzeitig verschachtelte Text- und Bild-Eingaben denoisiert und bidirektionales kontextbewusstes Denken verbessert. Die zweite Stufe, Heterogeneous Contrastive Fine-tuning, nutzt vielfältige, semantisch reiche multimodale Daten, die über einfache Bild-Beschriftungs-Paare hinausgehen, um Generalisierung und Ausrichtung zu verbessern. Unser Ansatz adressiert die genannten Einschränkungen durch die Einführung bidirektionaler Aufmerksamkeit mittels kontinuierlichem Pre-training, effektive Skalierung mit massiven ungelabelten Datensätzen durch gemeinsame Rekonstruktionsziele und die Nutzung diverser multimodaler Daten für eine verbesserte Robustheit der Repräsentation. Experimente zeigen, dass MoCa die Leistung über die MMEB- und ViDoRe-v2-Benchmarks hinweg konsequent verbessert, neue State-of-the-Art-Ergebnisse erzielt und eine starke Skalierbarkeit sowohl in Bezug auf die Modellgröße als auch auf die Trainingsdaten bei MMEB aufweist.
Jüngste Fortschritte bei Diffusionsmodellen haben die Erzeugung hochwertiger Videos ermöglicht, doch die zusätzliche zeitliche Dimension erhöht die Rechenkosten erheblich, was das Training und die Inferenz bei langen Videos unverhältnismäßig teuer macht. In diesem Artikel identifizieren wir ein Phänomen, das wir als räumlich-zeitlichen Energieabfall in Video-Diffusionsmodellen bezeichnen: Die Post-Softmax-Attentionswerte nehmen ab, wenn der räumliche und zeitliche Abstand zwischen den Tokens zunimmt, ähnlich dem physikalischen Abfall von Signalen oder Wellen über Raum und Zeit in der Natur. Motiviert durch diese Beobachtung schlagen wir Radiale Attention vor, einen skalierbaren, spärlichen Aufmerksamkeitsmechanismus mit O(n log n)-Komplexität, der den Energieabfall in exponentiell abnehmende Rechendichte übersetzt, was deutlich effizienter ist als die standardmäßige O(n^2)-dichte Attention und ausdrucksstärker als lineare Attention. Konkret verwendet Radiale Attention eine einfache, statische Aufmerksamkeitsmaske, bei der jeder Token räumlich nahe Tokens beachtet, wobei die Größe des Aufmerksamkeitsfensters mit zunehmendem zeitlichen Abstand schrumpft. Darüber hinaus ermöglicht es vortrainierten Video-Diffusionsmodellen, ihre Generierungslänge durch effizientes LoRA-basiertes Fine-Tuning zu erweitern. Umfangreiche Experimente zeigen, dass Radiale Attention die Videoqualität über Wan2.1-14B, HunyuanVideo und Mochi 1 hinweg beibehält und dabei eine bis zu 1,9-fache Beschleunigung gegenüber der ursprünglichen dichten Attention erreicht. Mit minimalem Tuning ermöglicht es die Erzeugung von Videos, die bis zu 4-mal länger sind, während die Trainingskosten um bis zu 4,4-fach im Vergleich zum direkten Fine-Tuning reduziert und die Inferenz um bis zu 3,7-fach im Vergleich zur dichten Attention beschleunigt werden.
Diffusion Large Language Models (dLLMs) stellen überzeugende Alternativen zu autoregressiven (AR) Modellen dar, da ihre Denoising-Modelle über die gesamte Sequenz operieren. Die globalen Planungs- und iterativen Verfeinerungsfähigkeiten von dLLMs sind besonders nützlich für die Code-Generierung. Allerdings sind die aktuellen Trainings- und Inferenzmechanismen für dLLMs im Bereich der Programmierung noch wenig erforscht. Um das Decoding-Verhalten von dLLMs zu entschlüsseln und ihr Potenzial für die Code-Generierung freizusetzen, untersuchen wir systematisch ihre Denoising-Prozesse und Reinforcement-Learning (RL)-Methoden. Wir trainieren ein 7B dLLM, DiffuCoder, mit 130B Token an Code. Anhand dieses Modells als Testumgebung analysieren wir sein Decoding-Verhalten und zeigen, wie es sich von AR-Modellen unterscheidet: (1) dLLMs können entscheiden, wie kausal ihre Generierung sein soll, ohne sich auf semi-autoregressives Decoding zu verlassen, und (2) eine Erhöhung der Sampling-Temperatur diversifiziert nicht nur die Token-Auswahl, sondern auch deren Generierungsreihenfolge. Diese Diversität schafft einen reichhaltigen Suchraum für RL-Rollouts. Für das RL-Training schlagen wir coupled-GRPO vor, ein neuartiges Sampling-Schema, das komplementäres Maskenrauschen für die in der Ausbildung verwendeten Completionen konstruiert, um die Varianz der Token-Log-Likelihood-Schätzungen zu reduzieren und die Trainings effizient zu halten. In unseren Experimenten verbessert coupled-GRPO die Leistung von DiffuCoder bei Code-Generierungs-Benchmarks signifikant (+4,4 % auf EvalPlus) und reduziert die Abhängigkeit von kausalem AR während des Decodings. Unsere Arbeit bietet tiefere Einblicke in die Funktionsweise der dLLM-Generierung und stellt ein effektives, diffusion-natives RL-Trainingsframework bereit. https://github.com/apple/ml-diffucoder.
Können Maschinen wirklich denken, schlussfolgern und in Domänen wie Menschen handeln? Diese beständige Frage prägt weiterhin das Streben nach Künstlicher Allgemeiner Intelligenz (AGI). Trotz der wachsenden Fähigkeiten von Modellen wie GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 und Grok 3, die multimodale Flüssigkeit und teilweise Schlussfolgerungsfähigkeit zeigen, bleiben diese Systeme grundlegend durch ihre Abhängigkeit von Token-basierter Vorhersage und den Mangel an verankertem Handlungsvermögen begrenzt. Dieses Papier bietet eine interdisziplinäre Synthese der AGI-Entwicklung, die Künstliche Intelligenz, kognitive Neurowissenschaften, Psychologie, generative Modelle und agentenbasierte Systeme umfasst. Wir analysieren die architektonischen und kognitiven Grundlagen der allgemeinen Intelligenz und heben die Rolle von modularer Schlussfolgerung, persistentem Gedächtnis und Multi-Agenten-Koordination hervor. Insbesondere betonen wir den Aufstieg von Agentic-RAG-Frameworks, die Retrieval, Planung und dynamische Werkzeugnutzung kombinieren, um adaptiveres Verhalten zu ermöglichen. Wir diskutieren Generalisierungsstrategien, einschließlich Informationskompression, Testzeit-Anpassung und trainingsfreie Methoden, als kritische Wege hin zu flexibler, domänenunabhängiger Intelligenz. Vision-Language-Modelle (VLMs) werden nicht nur als Wahrnehmungsmodule, sondern als sich entwickelnde Schnittstellen für verkörpertes Verständnis und kollaborative Aufgabenbewältigung neu betrachtet. Wir argumentieren auch, dass wahre Intelligenz nicht allein aus Skalierung entsteht, sondern aus der Integration von Gedächtnis und Schlussfolgerung: einer Orchestrierung modularer, interaktiver und selbstverbessernder Komponenten, bei der Kompression adaptives Verhalten ermöglicht. Unter Bezugnahme auf Fortschritte in neurosymbolischen Systemen, bestärkendem Lernen und kognitiven Gerüsten erforschen wir, wie aktuelle Architekturen beginnen, die Lücke zwischen statistischem Lernen und zielgerichteter Kognition zu überbrücken. Schließlich identifizieren wir zentrale wissenschaftliche, technische und ethische Herausforderungen auf dem Weg zu AGI.
Mit der rasanten Entwicklung multimodaler großer Sprachmodelle hat sich die Fähigkeit, menschliche Absichten tiefgreifend zu verstehen und zu interpretieren, als eine entscheidende Kompetenz herausgestellt, die detailliertes und durchdachtes Denken erfordert. In jüngsten Studien hat Reinforcement Learning (RL) das Potenzial gezeigt, die Denkfähigkeiten von Large Language Models (LLMs) zu verbessern. Dennoch bleiben die Herausforderungen, die mit der Anpassung von RL an multimodale Daten und Formate verbunden sind, weitgehend ungelöst. In diesem Papier identifizieren wir zwei Probleme in bestehenden multimodalen Denkmodellen: unzureichendes Verständnis des globalen Kontexts und Shortcut-Probleme. Ein unzureichendes Kontextverständnis kann auftreten, wenn ein Modell den multimodalen Kontext falsch interpretiert, was zu falschen Antworten führt. Das Shortcut-Problem tritt auf, wenn das Modell entscheidende Hinweise in multimodalen Eingaben übersieht und die Anfrage direkt beantwortet, ohne die multimodalen Informationen zu berücksichtigen. Um diese Probleme zu lösen, betonen wir die Notwendigkeit, dass das Modell mit einem klaren Verständnis des globalen Kontexts innerhalb multimodaler Eingaben denkt. Dieses Verständnis des globalen Kontexts kann effektiv verhindern, dass das Modell wichtige multimodale Hinweise übersieht und einen gründlichen Denkprozess sicherstellt. Um die genaue Interpretation multimodaler Kontextinformationen zu gewährleisten, implementieren wir eine Kontextbelohnung, die von einem großen Sprachmodell beurteilt wird, sowie Format- und Genauigkeitsbelohnungen. Darüber hinaus setzen wir das LLM ein, um die logische Belohnung zu bewerten und festzustellen, ob der Denkprozess multimodale Informationen erfolgreich mit logischen Methoden integriert. Wir führen außerdem einen Benchmark für allmodales Denken, IntentBench, ein, der darauf abzielt, Modelle beim Verständnis komplexer menschlicher Absichten und Emotionen zu bewerten. Unsere vorgeschlagene Methode zeigt eine überlegene Leistung über mehrere allmodale Benchmarks im Vergleich zu anderen Open-Source-allmodalen Modellen.
Amodale Segmentierung und amodale Inhaltsvervollständigung erfordern die Verwendung von Objektprioren, um verdeckte Masken und Merkmale von Objekten in komplexen Szenen zu schätzen. Bislang hat kein Datensatz eine zusätzliche Dimension für den Objektkontext bereitgestellt: die Möglichkeit, dass mehrere Kameras eine gemeinsame Sicht auf eine Szene haben. Wir stellen MOVi-MC-AC vor: Multiple Object Video with Multi-Cameras and Amodal Content, den größten Datensatz für amodale Segmentierung und den ersten Datensatz für amodale Inhalte bis heute. Überladene Szenen mit generischen Haushaltsgegenständen werden in Multi-Kamera-Videos simuliert. MOVi-MC-AC leistet einen Beitrag zur wachsenden Literatur über Objekterkennung, -verfolgung und -segmentierung, indem er zwei neue Beiträge zur Deep-Learning-Welt der Computer Vision liefert. Mehrfachkamera-Einstellungen (MC), in denen Objekte zwischen verschiedenen einzigartigen Kameraperspektiven identifiziert und verfolgt werden können, sind sowohl in synthetischen als auch in realen Videos selten. Wir führen eine neue Komplexität in synthetische Videos ein, indem wir konsistente Objekt-IDs für Erkennungen und Segmentierungen sowohl zwischen Bildern als auch zwischen mehreren Kameras bereitstellen, die jeweils einzigartige Merkmale und Bewegungsmuster in einer einzigen Szene aufweisen. Amodale Inhalte (AC) sind eine rekonstruktive Aufgabe, bei der Modelle das Erscheinungsbild von Zielobjeten durch Verdeckungen vorhersagen. In der Literatur zur amodalen Segmentierung wurden einige Datensätze mit amodalen Erkennungs-, Verfolgungs- und Segmentierungsetiketten veröffentlicht. Während andere Methoden auf langsame Cut-and-Paste-Schemata zurückgreifen, um amodale Inhalte als Pseudo-Labels zu generieren, berücksichtigen sie nicht die natürlichen Verdeckungen, die in den modalen Masken vorhanden sind. MOVi-MC-AC bietet Etiketten für ~5,8 Millionen Objektinstanzen und setzt damit ein neues Maximum in der Literatur zu amodalen Datensätzen, zusätzlich dazu, dass es als erster Datensatz Ground-Truth-amodale Inhalte bereitstellt. Der vollständige Datensatz ist verfügbar unter https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten im visuellen Denken bei natürlichen Bildern, textreichen Dokumenten und grafischen Designs erreicht. Ihre Fähigkeit, Musiknotenblätter zu interpretieren, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir MusiXQA vor, den ersten umfassenden Datensatz zur Bewertung und Weiterentwicklung von MLLMs im Verständnis von Musiknotenblättern. MusiXQA umfasst hochwertige synthetische Musiknotenblätter, die mit MusiXTeX erzeugt wurden, sowie strukturierte Annotationen, die Notenhöhe und -dauer, Akkorde, Notenschlüssel, Tonart- und Taktangaben sowie Text abdecken, wodurch vielfältige visuelle Frage-Antwort-Aufgaben ermöglicht werden. Durch umfangreiche Evaluierungen zeigen wir erhebliche Einschränkungen der derzeit besten MLLMs in diesem Bereich auf. Über die Bewertung hinaus haben wir Phi-3-MusiX entwickelt, ein MLLM, das auf unserem Datensatz feinabgestimmt wurde und signifikante Leistungssteigerungen gegenüber GPT-basierten Methoden erzielt. Der vorgeschlagene Datensatz und das Modell bilden die Grundlage für zukünftige Fortschritte bei MLLMs im Verständnis von Musiknotenblättern. Code, Daten und Modell werden nach der Annahme veröffentlicht.
Daten sind grundlegend für das Training von Sprachmodellen (LM). Aktuelle Forschung widmet sich der Dateneffizienz, die darauf abzielt, die Leistung durch die Auswahl einer minimalen oder optimalen Teilmenge von Trainingsdaten zu maximieren. Techniken wie Datenfilterung, -sampling und -auswahl spielen in diesem Bereich eine entscheidende Rolle. Zur Ergänzung definieren wir Datenwirksamkeit (Data Efficacy), die sich darauf konzentriert, die Leistung durch die Optimierung der Organisation von Trainingsdaten zu maximieren und bisher relativ wenig erforscht ist. Diese Arbeit stellt ein allgemeines Paradigma, DELT, vor, um die Datenwirksamkeit beim Training von Sprachmodellen zu berücksichtigen, das die Bedeutung der Organisation von Trainingsdaten hervorhebt. DELT besteht aus drei Komponenten: Datenbewertung (Data Scoring), Datenauswahl (Data Selection) und Datenanordnung (Data Ordering). Unter diesen Komponenten entwickeln wir die Lernfähigkeits-Qualitäts-Bewertung (Learnability-Quality Scoring, LQS) als eine neue Instanz der Datenbewertung, die sowohl die Lernfähigkeit als auch die Qualität jedes Datenbeispiels aus der Perspektive der Gradientenkonsistenz berücksichtigt. Wir entwerfen auch die Faltungsanordnung (Folding Ordering, FO) als eine neuartige Instanz der Datenanordnung, die Probleme wie Modellvergessen und Datenverteilungsverzerrung adressiert. Umfassende Experimente validieren die Datenwirksamkeit beim Training von Sprachmodellen, was Folgendes zeigt: Erstens verbessern verschiedene Instanzen des vorgeschlagenen DELT die Leistung von Sprachmodellen in unterschiedlichem Maße, ohne die Datenmenge und Modellgröße zu erhöhen. Zweitens erreicht unter diesen Instanzen die Kombination unserer vorgeschlagenen LQS für die Datenbewertung und Folding für die Datenanordnung die signifikanteste Verbesserung. Schließlich kann die Datenwirksamkeit zusammen mit der Dateneffizienz durch die Anwendung der Datenauswahl erreicht werden. Daher glauben wir, dass die Datenwirksamkeit ein vielversprechendes Grundlagengebiet im Training von Sprachmodellen ist.
Jüngste Fortschritte in der Entwicklung von Videogenerierungsmodellen haben die Erstellung hochwertiger Kurzvideos aus Textanweisungen ermöglicht. Die Erweiterung dieser Modelle auf längere Videos bleibt jedoch eine große Herausforderung, hauptsächlich aufgrund von verschlechterter zeitlicher Konsistenz und visueller Qualität. Unsere vorläufigen Beobachtungen zeigen, dass die naive Anwendung von Kurzvideo-Generierungsmodellen auf längere Sequenzen zu einer merklichen Qualitätsverschlechterung führt. Eine weitere Analyse identifiziert einen systematischen Trend, bei dem hochfrequente Komponenten mit zunehmender Videolänge immer stärker verzerrt werden – ein Problem, das wir als hochfrequente Verzerrung bezeichnen. Um dies zu beheben, schlagen wir FreeLong vor, ein trainingsfreies Framework, das darauf abzielt, die Frequenzverteilung langer Videomerkmale während des Denoising-Prozesses auszugleichen. FreeLong erreicht dies durch die Kombination globaler niederfrequenter Merkmale, die die ganzheitliche Semantik des gesamten Videos erfassen, mit lokalen hochfrequenten Merkmalen, die aus kurzen zeitlichen Fenstern extrahiert werden, um feine Details zu bewahren. Darauf aufbauend erweitert FreeLong++ das Dual-Branch-Design von FreeLong zu einer Multi-Branch-Architektur mit mehreren Aufmerksamkeitszweigen, die jeweils auf einer unterschiedlichen zeitlichen Skala operieren. Durch die Anordnung mehrerer Fenstergrößen von global bis lokal ermöglicht FreeLong++ eine Multi-Band-Frequenzfusion von niedrigen zu hohen Frequenzen, wodurch sowohl semantische Kontinuität als auch fein abgestufte Bewegungsdynamik über längere Videosequenzen sichergestellt werden. Ohne zusätzliches Training kann FreeLong++ in bestehende Videogenerierungsmodelle (z. B. Wan2.1 und LTX-Video) integriert werden, um längere Videos mit deutlich verbesserter zeitlicher Konsistenz und visueller Qualität zu erzeugen. Wir zeigen, dass unser Ansatz frühere Methoden bei der Generierung längerer Videos (z. B. 4x und 8x der ursprünglichen Länge) übertrifft. Es unterstützt auch die kohärente Multi-Prompt-Videogenerierung mit fließenden Szenenübergängen und ermöglicht eine kontrollierbare Videogenerierung mithilfe langer Tiefen- oder Posesequenzen.
Vision-Language-Modelle (VLMs) glänzen bei beschreibenden Aufgaben, doch ob sie Szenen aus visuellen Beobachtungen wirklich verstehen, bleibt ungewiss. Wir stellen IR3D-Bench vor, einen Benchmark, der VLMs herausfordert, Verständnis durch aktives Erschaffen statt passives Erkennen unter Beweis zu stellen. Basierend auf dem Analyse-durch-Synthese-Paradigma fordert IR3D-Bench Vision-Language-Agenten (VLAs) auf, aktiv Programmier- und Rendering-Tools zu nutzen, um die zugrunde liegende 3D-Struktur eines Eingabebildes nachzubilden und so agentenbasiertes inverses Rendering durch Werkzeugnutzung zu erreichen. Dieser „Verstehen-durch-Erschaffen“-Ansatz untersucht die werkzeugnutzende generative Fähigkeit von VLAs und geht über die beschreibende oder konversationelle Kapazität hinaus, die traditionelle Szenenverständnis-Benchmarks messen. Wir bieten eine umfassende Suite von Metriken zur Bewertung geometrischer Genauigkeit, räumlicher Beziehungen, Erscheinungsattribute und der Gesamtplausibilität. Erste Experimente zum agentenbasierten inversen Rendering, unterstützt durch verschiedene state-of-the-art VLMs, verdeutlichen aktuelle Grenzen, insbesondere in der visuellen Präzision und nicht in der grundlegenden Werkzeugnutzung. IR3D-Bench, einschließlich Daten und Evaluationsprotokolle, wird veröffentlicht, um die systematische Erforschung und Entwicklung werkzeugnutzender VLAs hin zu echtem Szenenverständnis durch Erschaffen zu fördern.
Ein Bericht der Europäischen Union für Strafverfolgungsbehörden prognostiziert, dass bis 2026 bis zu 90 Prozent der Online-Inhalte synthetisch generiert sein könnten. Dies hat Bedenken unter politischen Entscheidungsträgern geweckt, die warnten: „Generative KI könnte als Kraftmultiplikator für politische Desinformation wirken. Die kombinierte Wirkung von generativem Text, Bildern, Videos und Audio könnte den Einfluss jeder einzelnen Modalität übertreffen.“ Als Reaktion darauf schreibt das kalifornische Gesetz AB 3211 die Kennzeichnung von KI-generierten Bildern, Videos und Audio vor. Es bestehen jedoch weiterhin Bedenken hinsichtlich der Anfälligkeit unsichtbarer Wasserzeichen-Techniken für Manipulationen und der Möglichkeit, dass böswillige Akteure sie vollständig umgehen könnten. Generative KI-gestützte Angriffe zur Entfernung von Wasserzeichen, insbesondere der neu eingeführte visuelle Paraphrasierungsangriff, haben gezeigt, dass sie Wasserzeichen vollständig entfernen können, was zu einer Paraphrasierung des Originalbildes führt. Dieses Papier stellt PECCAVI vor, die erste visuelle Paraphrasierungsangriff-sichere und verzerrungsfreie Bildwasserzeichen-Technik. Bei visuellen Paraphrasierungsangriffen wird ein Bild verändert, während seine zentralen semantischen Bereiche, sogenannte Non-Melting Points (NMPs), erhalten bleiben. PECCAVI bettet Wasserzeichen strategisch in diesen NMPs ein und verwendet eine Mehrkanal-Frequenzbereichs-Wasserzeichen-Technik. Es integriert zudem ein rauschendes Polierverfahren, um Reverse-Engineering-Bemühungen zu begegnen, die darauf abzielen, NMPs zu lokalisieren und das eingebettete Wasserzeichen zu stören, wodurch die Haltbarkeit verbessert wird. PECCAVI ist modellunabhängig. Alle relevanten Ressourcen und Codes werden quelloffen zur Verfügung gestellt.
Große Sprachmodelle (LLMs) zeichnen sich bei komplexen Aufgaben durch fortschrittliche Prompting-Techniken wie Chain-of-Thought (CoT) und Tree-of-Thought (ToT) aus, doch ihre Abhängigkeit von manuell erstellten, aufgaben-spezifischen Prompts schränkt die Anpassungsfähigkeit und Effizienz ein. Wir stellen Mixture of Reasoning (MoR) vor, ein Trainingsframework, das verschiedene Denkstrategien in LLMs integriert, um autonomes, aufgabenadaptives Denken ohne externe Prompt-Engineering zu ermöglichen. MoR besteht aus zwei Phasen: Thought Generation, bei der Vorlagen für Denkketten mit Modellen wie GPT-4o erstellt werden, und SFT Dataset Construction, bei der diese Vorlagen mit Benchmark-Datensätzen für überwachtes Fein-Tuning kombiniert werden. Unsere Experimente zeigen, dass MoR die Leistung signifikant verbessert, wobei MoR150 mit CoT-Prompting 0,730 (2,2 % Verbesserung) und im Vergleich zu den Baselines 0,734 (13,5 % Verbesserung) erreicht. MoR eliminiert den Bedarf an aufgaben-spezifischen Prompts und bietet eine generalisierbare Lösung für robustes Denken über diverse Aufgaben hinweg.
Wir stellen Ella vor, einen verkörperten sozialen Agenten, der in der Lage ist, lebenslang in einer Gemeinschaft in einer 3D-Open-World zu lernen, in der Agenten Erfahrungen sammeln und Wissen durch alltägliche visuelle Beobachtungen und soziale Interaktionen erwerben. Im Kern von Ellas Fähigkeiten liegt ein strukturiertes, langfristiges multimodales Gedächtnissystem, das Informationen effektiv speichert, aktualisiert und abruft. Es besteht aus einem namenszentrierten semantischen Gedächtnis zur Organisation erworbenen Wissens und einem raumzeitlichen episodischen Gedächtnis zur Erfassung multimodaler Erfahrungen. Durch die Integration dieses lebenslangen Gedächtnissystems mit Foundation-Modellen ruft Ella relevante Informationen für die Entscheidungsfindung ab, plant tägliche Aktivitäten, baut soziale Beziehungen auf und entwickelt sich autonom, während sie mit anderen intelligenten Wesen in der Open-World koexistiert. Wir führen fähigkeitsorientierte Bewertungen in einer dynamischen 3D-Open-World durch, in der 15 Agenten über Tage hinweg an sozialen Aktivitäten teilnehmen und mit einer Reihe von ungesehenen kontrollierten Bewertungen beurteilt werden. Experimentelle Ergebnisse zeigen, dass Ella andere Agenten gut beeinflussen, führen und mit ihnen zusammenarbeiten kann, um Ziele zu erreichen, und demonstrieren ihre Fähigkeit, effektiv durch Beobachtung und soziale Interaktion zu lernen. Unsere Ergebnisse unterstreichen das transformative Potenzial der Kombination strukturierter Gedächtnissysteme mit Foundation-Modellen zur Weiterentwicklung verkörperter Intelligenz. Weitere Videos finden Sie unter https://umass-embodied-agi.github.io/Ella/.
Eine präzise Materialmodellierung ist entscheidend, um fotorealistisches Rendering zu erreichen und die Lücke zwischen computergenerierten Bildern und realen Fotografien zu schließen. Während traditionelle Ansätze auf tabellarische BRDF-Daten zurückgreifen, hat sich die jüngste Forschung in Richtung impliziter neuronaler Repräsentationen verschoben, die kompakte und flexible Rahmenwerke für eine Vielzahl von Aufgaben bieten. Allerdings ist ihr Verhalten im Frequenzbereich noch weitgehend unverstanden. Um dies zu adressieren, führen wir FreNBRDF ein, eine frequenzkorrigierte neuronale Materialrepräsentation. Durch die Nutzung von sphärischen Harmoniken integrieren wir Frequenzbereichsbetrachtungen in die neuronale BRDF-Modellierung. Wir schlagen einen neuartigen frequenzkorrigierten Verlust vor, der aus einer Frequenzanalyse neuronaler Materialien abgeleitet wird, und integrieren ihn in eine generalisierbare und adaptive Rekonstruktions- und Bearbeitungspipeline. Dieser Rahmen verbessert die Genauigkeit, Anpassungsfähigkeit und Effizienz. Umfangreiche Experimente zeigen, dass \ours die Präzision und Robustheit der Materialdarstellungsrekonstruktion und -bearbeitung im Vergleich zu modernen Baselines verbessert und dadurch strukturiertere und interpretierbarere nachgelagerte Aufgaben und Anwendungen ermöglicht.
3D Gaussian Splatting ermöglicht hochwertiges Echtzeit-Rendering, erzeugt jedoch oft Millionen von Splats, was zu übermäßigem Speicherbedarf und Rechenaufwand führt. Wir schlagen eine neuartige verlustbehaftete Kompressionsmethode vor, die auf lernbaren Konfidenzwerten basiert, die als Beta-Verteilungen modelliert werden. Die Konfidenz jedes Splats wird durch rekonstruktionsbewusste Verlustfunktionen optimiert, wodurch Splats mit geringer Konfidenz entfernt werden können, während die visuelle Qualität erhalten bleibt. Der vorgeschlagene Ansatz ist architekturunabhängig und kann auf jede Variante von Gaussian Splatting angewendet werden. Darüber hinaus dienen die durchschnittlichen Konfidenzwerte als neue Metrik zur Bewertung der Qualität der Szene. Umfangreiche Experimente zeigen günstige Kompromisse zwischen Kompression und Qualität im Vergleich zu früheren Arbeiten. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/amirhossein-razlighi/Confident-Splatting.