Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein leistungsstarker Ansatz erwiesen, um die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung zu verbessern, obwohl die zugrunde liegenden Mechanismen noch nicht vollständig verstanden sind. In dieser Arbeit unternehmen wir eine wegweisende Untersuchung von RLVR aus der neuartigen Perspektive von Token-Entropiemustern und analysieren umfassend, wie verschiedene Token die Leistung bei der logischen Schlussfolgerung beeinflussen. Durch die Untersuchung von Token-Entropiemustern im Chain-of-Thought (CoT)-Schlussfolgerungsprozess stellen wir fest, dass nur ein kleiner Teil der Token eine hohe Entropie aufweist und dass diese Token als kritische Weichen fungieren, die das Modell auf verschiedene Schlussfolgerungspfade lenken. Darüber hinaus zeigt die Untersuchung der Entwicklung von Entropiemustern während des RLVR-Trainings, dass RLVR weitgehend den Entropiemustern des Basismodells folgt und hauptsächlich die Entropie der hoch entropischen Token anpasst. Diese Erkenntnisse unterstreichen die Bedeutung von hoch entropischen Token (d.h. Weichen-Token) für RLVR. Wir verbessern RLVR schließlich, indem wir die Policy-Gradient-Updates auf Weichen-Token beschränken, und entdecken eine Erkenntnis, die sogar über die 80/20-Regel hinausgeht: Die Verwendung von nur 20 % der Token führt zu einer Leistung, die vergleichbar ist mit vollständigen Gradienten-Updates beim Qwen3-8B-Basismodell und die vollständige Gradienten-Updates beim Qwen3-32B (+11,04 auf AIME'25 und +7,71 auf AIME'24) und Qwen3-14B (+4,79 auf AIME'25 und +5,21 auf AIME'24) Basismodellen deutlich übertrifft, was einen starken Skalierungstrend aufzeigt. Im Gegensatz dazu führt das Training ausschließlich mit den 80 % der Token mit der niedrigsten Entropie zu einem deutlichen Leistungsabfall. Diese Ergebnisse deuten darauf hin, dass die Wirksamkeit von RLVR hauptsächlich aus der Optimierung der hoch entropischen Token resultiert, die die Richtung der Schlussfolgerung bestimmen. Insgesamt unterstreichen unsere Ergebnisse das Potenzial, RLVR durch eine Token-Entropie-Perspektive zu verstehen und RLVR durch die Nutzung hoch entropischer Minderheits-Token weiter zu optimieren, um die logische Schlussfolgerung von LLMs weiter zu verbessern.
Vision-Language-Modelle (VLMs), die auf groß angelegten multimodalen Datensätzen vortrainiert wurden, kodieren umfangreiches visuelles und linguistisches Wissen und bilden somit eine solide Grundlage für die Robotik. Anstatt Roboterrichtlinien von Grund auf zu trainieren, passen neuere Ansätze VLMs zu Vision-Language-Action-Modellen (VLAs) an, die eine natürliche sprachgesteuerte Wahrnehmung und Steuerung ermöglichen. Allerdings sind bestehende VLAs typischerweise sehr umfangreich – oft mit Milliarden von Parametern – was zu hohen Trainingskosten und begrenzter Einsatzfähigkeit in der realen Welt führt. Darüber hinaus stützen sie sich auf akademische und industrielle Datensätze und übersehen dabei die zunehmende Verfügbarkeit von gemeinschaftlich gesammelten Daten von erschwinglichen Roboterplattformen. In dieser Arbeit präsentieren wir SmolVLA, ein kleines, effizientes und gemeinschaftsorientiertes VLA, das sowohl die Trainings- als auch die Inferenzkosten drastisch reduziert, während es eine wettbewerbsfähige Leistung beibehält. SmolVLA ist so konzipiert, dass es auf einer einzelnen GPU trainiert und auf Consumer-GPUs oder sogar CPUs eingesetzt werden kann. Um die Reaktionsfähigkeit weiter zu verbessern, führen wir einen asynchronen Inferenz-Stack ein, der die Wahrnehmung und Aktionsvorhersage von der Aktionsausführung entkoppelt und so höhere Steuerungsraten mit segmentierter Aktionsgenerierung ermöglicht. Trotz seiner kompakten Größe erreicht SmolVLA eine Leistung, die mit VLAs vergleichbar ist, die 10-mal größer sind. Wir evaluieren SmolVLA auf einer Reihe von simulierten sowie realen Roboter-Benchmarks und veröffentlichen den gesamten Code, vortrainierte Modelle und Trainingsdaten.
Wir stellen Reasoning Gym (RG) vor, eine Bibliothek von Umgebungen für das Verstärkungslernen mit überprüfbaren Belohnungen. Sie bietet über 100 Daten-Generatoren und Verifizierer, die mehrere Domänen abdecken, darunter Algebra, Arithmetik, Berechnung, Kognition, Geometrie, Graphentheorie, Logik und verschiedene gängige Spiele. Die zentrale Innovation besteht in der Fähigkeit, nahezu unendliche Trainingsdaten mit einstellbarer Komplexität zu generieren, im Gegensatz zu den meisten bisherigen Datensätzen für das logische Denken, die typischerweise festgelegt sind. Dieser prozedurale Generierungsansatz ermöglicht eine kontinuierliche Bewertung über verschiedene Schwierigkeitsgrade hinweg. Unsere experimentellen Ergebnisse demonstrieren die Wirksamkeit von RG sowohl bei der Bewertung als auch beim Verstärkungslernen von Modellen für logisches Denken.
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fähigkeiten bei Denkaufgaben gezeigt, kämpfen jedoch noch mit komplexen Problemen, die explizite Selbstreflexion und Selbstkorrektur erfordern, insbesondere im Vergleich zu ihren unimodalen textbasierten Gegenstücken. Bestehende Reflexionsmethoden sind zu simpel und haben Schwierigkeiten, sinnvolle und lehrreiche Rückmeldungen zu generieren, da die Denkfähigkeit und das Wissen vortrainierter Modelle weitgehend während des anfänglichen Trainings festgelegt sind. Um diese Herausforderungen zu bewältigen, schlagen wir Multimodale Selbstreflexion mit Group Relative Policy Optimization (SRPO) vor, ein zweistufiges Reflexions-bewusstes Reinforcement-Learning (RL)-Framework, das explizit entwickelt wurde, um das Denken multimodaler LLMs zu verbessern. In der ersten Stufe erstellen wir einen hochwertigen, reflexionsfokussierten Datensatz unter Anleitung eines fortgeschrittenen MLLM, das Reflexionen basierend auf initialen Antworten generiert, um dem Policy-Modell sowohl das Denken als auch die Selbstreflexion beizubringen. In der zweiten Stufe führen wir einen neuartigen Belohnungsmechanismus innerhalb des GRPO-Frameworks ein, der prägnante und kognitiv sinnvolle Reflexion fördert, während Redundanz vermieden wird. Umfangreiche Experimente über mehrere multimodale Denkbenchmarks, darunter MathVista, MathVision, MathVerse und MMMU-Pro, unter Verwendung von Qwen-2.5-VL-7B und Qwen-2.5-VL-32B zeigen, dass SRPO state-of-the-art Modelle deutlich übertrifft und bemerkenswerte Verbesserungen sowohl in der Denkgenauigkeit als auch in der Reflexionsqualität erzielt.
Das Training großer Sprachmodelle (LLMs) stellt aufgrund ihres enormen Umfangs und heterogener Architekturen Herausforderungen dar. Obwohl adaptive Optimierer wie AdamW helfen, Gradientenvariationen zu bewältigen, haben sie dennoch Schwierigkeiten mit einer effizienten und effektiven schrittweisen Schätzung der Lernrate für Parameter, was zu Trainingsinstabilität, langsamer Konvergenz und schlechter Kompatibilität mit parameter-effizienten Feinabstimmungstechniken (PEFT) führt. Diese Arbeit stellt Scaling with Gradient Grouping (SGG) vor, einen Optimierer-Wrapper, der die adaptive Schätzung der Lernrate durch dynamische Gruppierung und gruppenspezifische Skalierung verbessert. SGG gruppiert zunächst Gradientenstatistiken in jeder Schicht in Cluster und wendet dann clusterspezifische Skalierung an, um die Lernraten für jeden Parameter zu kalibrieren, wodurch kollektive gruppenweise Einschränkungen auferlegt werden, während gleichzeitig eine präzise Anpassung pro Parameter beibehalten wird. Experimente auf verschiedenen (M)LLM-Benchmarks zeigen, dass SGG nahtlos mit bestehenden Optimierern integriert werden kann und im Vergleich zu Baselines konsistente Verbesserungen und schnellere Konvergenz bei verschiedenen Modellgrößen bietet. Seine Stabilität bei variierenden Batch-Größen und Lernraten etabliert SGG als eine robuste Wahl für die Optimierung von LLMs.
Jüngste Fortschritte in Text-zu-Video-Diffusionsmodellen haben die Synthese hochwertiger Videos ermöglicht, doch die kontrollierbare Generierung bleibt eine Herausforderung, insbesondere bei begrenzten Daten und Rechenressourcen. Bestehende Feinabstimmungsmethoden für die bedingte Generierung verlassen sich oft auf externe Encoder oder architektonische Modifikationen, die große Datensätze erfordern und typischerweise auf räumlich ausgerichtete Bedingungen beschränkt sind, was die Flexibilität und Skalierbarkeit einschränkt. In dieser Arbeit stellen wir Temporal In-Context Fine-Tuning (TIC-FT) vor, einen effizienten und vielseitigen Ansatz zur Anpassung vortrainierter Video-Diffusionsmodelle für verschiedene bedingte Generierungsaufgaben. Unser zentraler Gedanke ist, Bedingungs- und Zielbilder entlang der zeitlichen Achse zu verketten und Zwischenpufferbilder mit progressiv ansteigenden Rauschpegeln einzufügen. Diese Pufferbilder ermöglichen sanfte Übergänge und richten den Feinabstimmungsprozess an den zeitlichen Dynamiken des vortrainierten Modells aus. TIC-FT erfordert keine architektonischen Änderungen und erzielt eine starke Leistung mit nur 10-30 Trainingsbeispielen. Wir validieren unsere Methode in einer Reihe von Aufgaben, einschließlich Bild-zu-Video- und Video-zu-Video-Generierung, unter Verwendung großformatiger Basismodelle wie CogVideoX-5B und Wan-14B. Umfangreiche Experimente zeigen, dass TIC-FT bestehende Baselines sowohl in der Bedingungstreue als auch in der visuellen Qualität übertrifft, während es sowohl im Training als auch in der Inferenz äußerst effizient bleibt. Für weitere Ergebnisse besuchen Sie https://kinam0252.github.io/TIC-FT/.
Große Sprachmodelle (LLMs) haben es Agenten ermöglicht, komplexe Schlussfolgerungen und Entscheidungsfindungen durch freie Sprachinteraktionen durchzuführen. In offenen Sprachhandlungsumgebungen (z. B. Verhandlungen oder Fragespielen) kann der Aktionsraum jedoch als gemeinsame Verteilung über Tokens formuliert werden, was zu einem exponentiell großen Aktionsraum führt. Das Abtasten von Aktionen in einem solchen Raum kann zu extremer Belohnungssparsität führen, was eine große Belohnungsvarianz mit sich bringt und effektives Reinforcement Learning (RL) behindert. Um dies zu adressieren, schlagen wir ARIA vor, eine Methode, die Belohnungen im Intentionenraum aggregiert, um ein effizientes und effektives Training von Sprachagenten zu ermöglichen. ARIA zielt darauf ab, natürliche Sprachaktionen aus dem hochdimensionalen gemeinsamen Token-Verteilungsraum in einen niedrigdimensionalen Intentionenraum zu projizieren, in dem semantisch ähnliche Aktionen gruppiert und gemeinsame Belohnungen zugewiesen werden. Diese intentionsbewusste Belohnungsaggregation reduziert die Belohnungsvarianz, indem sie Belohnungssignale verdichtet und so eine bessere Politikoptimierung fördert. Umfangreiche Experimente zeigen, dass ARIA nicht nur die Varianz des Politikgradienten signifikant reduziert, sondern auch erhebliche Leistungssteigerungen von durchschnittlich 9,95 % über vier nachgelagerte Aufgaben liefert und dabei konsistent Offline- und Online-RL-Baselines übertrifft.
Reale, verkörperte Agenten stehen vor langfristigen Aufgaben, die durch hochrangige Ziele gekennzeichnet sind, die mehrstufige Lösungen über einzelne Aktionen hinaus erfordern. Um diese erfolgreich zu bewältigen, sind sowohl die Planung auf hoher Ebene (d.h. die Zerlegung von Zielen in Teilaufgaben) als auch die Steuerung auf niedriger Ebene (d.h. die Erzeugung präziser Roboteraktionen) erforderlich. Während bestehende Vision-Language-Action (VLA)-Modelle und hierarchische Architekturen Potenzial für verkörperte Aufgaben bieten, scheitern erstere oft bei der Planung, und letztere können unter Koordinationsproblemen leiden, was beides die Leistung beeinträchtigt. Wir stellen ein neues, vereinheitlichtes VLA-Framework für langfristige Aufgaben vor, genannt LoHoVLA, um diese Einschränkungen zu überwinden. LoHoVLA nutzt ein großes, vortrainiertes Vision-Language-Modell (VLM) als Rückgrat, um gemeinsam Sprach- und Aktionstokens für die Generierung von Teilaufgaben und die Vorhersage von Roboteraktionen zu erzeugen. Diese gemeinsame Repräsentation fördert eine bessere Generalisierung über Aufgaben hinweg. Darüber hinaus integriert LoHoVLA einen hierarchischen Regelkreis-Mechanismus, um Fehler zu minimieren, die sowohl aus der Planung auf hoher Ebene als auch aus der Steuerung auf niedriger Ebene stammen. Um LoHoVLA zu trainieren, führen wir LoHoSet ein, einen auf dem Ravens-Simulator basierenden Datensatz, der 20 langfristige Aufgaben enthält, jeweils mit 1.000 Experten-Demonstrationen, die aus visuellen Beobachtungen, linguistischen Zielen, Teilaufgaben und Roboteraktionen bestehen. Experimentelle Ergebnisse zeigen, dass LoHoVLA sowohl hierarchische als auch standardmäßige VLA-Ansätze bei langfristigen, verkörperten Aufgaben im Ravens-Simulator deutlich übertrifft. Diese Ergebnisse unterstreichen das Potenzial vereinheitlichter Architekturen für die Weiterentwicklung generalisierbarer, verkörperter Intelligenz.
Kürzlich haben die leistungsstarken Text-zu-Bild-Fähigkeiten von ChatGPT-4o zu einer zunehmenden Wertschätzung für native multimodale große Sprachmodelle geführt. Allerdings beschränken sich seine multimodalen Fähigkeiten weiterhin auf Bilder und Text. Doch über Bilder hinaus ist die Fähigkeit, 3D-Inhalte zu verstehen und zu generieren, ebenso entscheidend. Um diese Lücke zu schließen, schlagen wir ShapeLLM-Omni vor – ein natives 3D-großes Sprachmodell, das in der Lage ist, 3D-Assets und Text in beliebiger Reihenfolge zu verstehen und zu generieren. Zunächst trainieren wir einen 3D-vektorquantisierten Variationsautoencoder (VQVAE), der 3D-Objekte in einen diskreten latenten Raum abbildet, um eine effiziente und präzise Formdarstellung und -rekonstruktion zu erreichen. Aufbauend auf den 3D-bewussten diskreten Tokens konstruieren wir innovativ einen groß angelegten kontinuierlichen Trainingsdatensatz namens 3D-Alpaca, der Generierung, Verständnis und Bearbeitung umfasst und somit reichhaltige Ressourcen für zukünftige Forschung und Training bereitstellt. Schließlich führen wir ein anweisungsbasiertes Training des Qwen-2.5-vl-7B-Instruct-Modells auf dem 3D-Alpaca-Datensatz durch. Unsere Arbeit bietet einen effektiven Versuch, multimodale Modelle mit grundlegenden 3D-Fähigkeiten zu erweitern, was zukünftige Forschung im Bereich 3D-nativer KI unterstützt. Projektseite: https://github.com/JAMESYJL/ShapeLLM-Omni
Die Anwendung regelbasierter Verstärkungslernverfahren (Reinforcement Learning, RL) auf multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) stellt einzigartige Herausforderungen dar und kann zu Abweichungen von Erkenntnissen in rein textbasierten Domänen führen, insbesondere bei wahrnehmungsintensiven Aufgaben. Diese Arbeit bietet eine umfassende Studie zu regelbasiertem visuellem RL, wobei Puzzlespiele als strukturierter experimenteller Rahmen verwendet werden. Puzzlespiele bieten inhärente Ground Truth, einstellbare Schwierigkeitsgrade und erfordern komplexe Entscheidungsfindung, was sie ideal für diese Studie macht. Unsere Forschung zeigt mehrere zentrale Erkenntnisse: Erstens stellen wir fest, dass MLLMs, die anfangs bei den einfachsten Puzzlespielen nahezu zufällige Ergebnisse erzielen, durch Feinabstimmung nahezu perfekte Genauigkeit erreichen und sich auf komplexe, unbekannte Konfigurationen verallgemeinern lassen. Zweitens kann das Training an Puzzlespielen eine Verallgemeinerung auf andere visuelle Aufgaben bewirken, wobei die Effektivität an spezifische Aufgabenkonfigurationen gebunden ist. Drittens können MLLMs mit oder ohne explizites Schlussfolgern lernen und verallgemeinern, wobei Open-Source-Modelle oft direkte Antworten bevorzugen. Folglich können sie, selbst wenn sie für schrittweises Schlussfolgern trainiert wurden, den Denkprozess bei der Ableitung der endgültigen Antwort ignorieren. Viertens beobachten wir, dass komplexe Schlussfolgerungsmuster eher vorbestehend als emergent erscheinen, wobei ihre Häufigkeit mit dem Training und der Aufgabenkomplexität zunimmt. Schließlich zeigen unsere Ergebnisse, dass RL eine effektivere Verallgemeinerung als Supervised Fine-Tuning (SFT) aufweist und dass eine anfängliche SFT-Kaltstartphase die nachfolgende RL-Optimierung behindern kann. Obwohl diese Beobachtungen auf Puzzlespiele basieren und bei anderen visuellen Aufgaben variieren können, leistet diese Forschung einen wertvollen Beitrag zum größeren Puzzle des kollektiven Verständnisses regelbasierten visuellen RLs und seines Potenzials im multimodalen Lernen. Der Code ist verfügbar unter: https://github.com/zifuwanggg/Jigsaw-R1.
Jüngste Fortschritte in Video-Diffusionsmodellen haben ein großes Potenzial für die Generierung von Daten zur robotischen Entscheidungsfindung gezeigt, wobei Trajektorienbedingungen eine fein abgestimmte Kontrolle ermöglichen. Allerdings konzentrieren sich bestehende trajektorienbasierte Methoden hauptsächlich auf die Bewegung einzelner Objekte und haben Schwierigkeiten, die Interaktion zwischen mehreren Objekten zu erfassen, die bei komplexen robotischen Manipulationen entscheidend ist. Diese Einschränkung ergibt sich aus der Verflechtung mehrerer Merkmale in überlappenden Regionen, was zu einer verminderten visuellen Qualität führt. Um dies zu beheben, stellen wir RoboMaster vor, ein neuartiges Framework, das die Dynamik zwischen Objekten durch eine kollaborative Trajektorienformulierung modelliert. Im Gegensatz zu früheren Methoden, die Objekte zerlegen, liegt unser Kernansatz darin, den Interaktionsprozess in drei Teilphasen zu unterteilen: Vor-Interaktion, Interaktion und Nach-Interaktion. Jede Phase wird anhand des Merkmals des dominierenden Objekts modelliert, insbesondere des Roboterarms in den Phasen vor und nach der Interaktion sowie des manipulierten Objekts während der Interaktion, wodurch der Nachteil der Fusion von Merkmalen mehrerer Objekte, wie er in früheren Arbeiten während der Interaktion auftrat, gemildert wird. Um die semantische Konsistenz des Subjekts im gesamten Video weiter zu gewährleisten, integrieren wir erscheinungs- und formbewusste latente Darstellungen für Objekte. Umfangreiche Experimente mit dem anspruchsvollen Bridge V2-Datensatz sowie Bewertungen in realen Umgebungen zeigen, dass unsere Methode bestehende Ansätze übertrifft und einen neuen Stand der Technik in der trajektoriengesteuerten Videogenerierung für robotische Manipulationen etabliert.
Reinforcement Learning (RL) hat sich zu einem vielversprechenden Paradigma für das Training großer Sprachmodelle (LLMs) entwickelt, insbesondere für Aufgaben, die logisches Denken erfordern. Effektives RL für LLMs erfordert eine massive Parallelisierung und stellt dringenden Bedarf an effizienten Trainingssystemen dar. Die meisten bestehenden groß angelegten RL-Systeme für LLMs sind synchron und wechseln zwischen Generierung und Training in einem Batch-Setting, wobei die Rollouts in jedem Trainingsbatch vom gleichen (oder neuesten) Modell generiert werden. Dies stabilisiert das RL-Training, führt jedoch zu erheblichen systembedingten Ineffizienzen. Die Generierung muss warten, bis die längste Ausgabe im Batch abgeschlossen ist, bevor das Modell aktualisiert wird, was zu einer Unterauslastung der GPUs führt. Wir stellen AReaL vor, ein vollständig asynchrones RL-System, das die Generierung vollständig vom Training entkoppelt. Rollout-Worker in AReaL generieren kontinuierlich neue Ausgaben ohne zu warten, während Trainings-Worker das Modell aktualisieren, sobald ein Batch von Daten gesammelt wurde. AReaL integriert zudem eine Reihe von systembedingten Optimierungen, die zu einer deutlich höheren GPU-Auslastung führen. Um das RL-Training zu stabilisieren, gleicht AReaL die Arbeitslast von Rollout- und Trainings-Workern aus, um die Datenveraltung zu kontrollieren, und verwendet eine veraltungsoptimierte PPO-Variante, um veraltete Trainingsdaten besser zu verarbeiten. Umfangreiche Experimente auf mathematischen und Code-basierten Reasoning-Benchmarks zeigen, dass AReaL im Vergleich zu den besten synchronen Systemen mit der gleichen Anzahl von GPUs eine bis zu 2,57-fache Trainingsbeschleunigung erreicht, bei gleicher oder sogar verbesserter Endleistung. Der Code von AReaL ist verfügbar unter https://github.com/inclusionAI/AReaL/.
Große multimodale Modelle (LMMs) haben in verschiedenen Vision-Sprache-Aufgaben eine starke Leistung gezeigt. Allerdings haben sie oft Schwierigkeiten, Erdbeobachtungsdaten (EO-Daten) umfassend zu verstehen, was für die Überwachung der Umwelt und der Auswirkungen menschlicher Aktivitäten darauf entscheidend ist. In dieser Arbeit präsentieren wir EarthMind, ein neuartiges Vision-Sprache-Framework für das Verständnis von multi-granularen und multi-sensorischen EO-Daten. EarthMind verfügt über zwei Kernkomponenten: (1) Spatial Attention Prompting (SAP), das die Aufmerksamkeit innerhalb des LLM neu verteilt, um das pixelgenaue Verständnis zu verbessern; und (2) Cross-modal Fusion, das heterogene Modalitäten in einen gemeinsamen Raum ausrichtet und Token basierend auf ihrer Informationsdichte adaptiv neu gewichtet, um eine effektive Fusion zu ermöglichen. Um die Bewertung der Multi-Sensor-Fusion zu erleichtern, schlagen wir EarthMind-Bench vor, einen umfassenden Benchmark mit über 2.000 menschlich annotierten Multi-Sensor-Bild-Frage-Paaren, die eine breite Palette von Wahrnehmungs- und Schlussfolgerungsaufgaben abdecken. Umfangreiche Experimente demonstrieren die Wirksamkeit von EarthMind. Es erreicht state-of-the-art Leistung auf EarthMind-Bench und übertrifft GPT-4o, obwohl es nur 4B groß ist. Darüber hinaus übertrifft EarthMind bestehende Methoden auf mehreren öffentlichen EO-Benchmarks und zeigt sein Potenzial, sowohl multi-granulare als auch multi-sensorische Herausforderungen in einem einheitlichen Framework zu bewältigen.
Skalierungsgesetze haben die jüngsten Fortschritte im maschinellen Lernen geprägt, indem sie eine vorhersehbare Skalierung der Modellleistung basierend auf Modellgröße, Rechenleistung und Datenvolumen ermöglichten. Gleichzeitig hat der Anstieg der Rechenkosten für KI die Entwicklung von Modellkomprimierungstechniken motiviert, insbesondere Quantisierung und Sparsifizierung, die entstanden sind, um den hohen Rechenaufwand im Zusammenhang mit dem Training und der Inferenz in großem Maßstab zu mindern. Diese Arbeit untersucht das Zusammenspiel zwischen Skalierungsgesetzen und Komprimierungsformaten und erforscht, ob ein einheitliches Skalierungsframework die Modellleistung genau vorhersagen kann, wenn das Training über verschiedene komprimierte Darstellungen wie spärliche, skalare-quantisierte, spärlich-quantisierte oder sogar vektor-quantisierte Formate erfolgt. Unsere wesentlichen Beiträge umfassen die Validierung einer allgemeinen Formulierung des Skalierungsgesetzes und den Nachweis, dass es sowohl einzeln als auch kombiniert über verschiedene Komprimierungstypen hinweg anwendbar ist. Basierend darauf ist unsere Haupterkenntnis, dass wir sowohl theoretisch als auch empirisch zeigen, dass es eine einfache „Kapazitäts“-Metrik gibt – basierend auf der Fähigkeit der Darstellung, zufällige Gaußsche Daten anzupassen –, die die Parametereffizienz über mehrere komprimierte Darstellungen hinweg robust vorhersagen kann. Auf der praktischen Seite erweitern wir unsere Formulierung, um die Genauigkeitspotenziale verschiedener komprimierter Formate direkt zu vergleichen und bessere Algorithmen für das Training über spärlich-quantisierte Formate abzuleiten.
Bestehende große Sprachmodelle (LLMs) stehen vor Herausforderungen bei der Befolgung komplexer Anweisungen, insbesondere wenn mehrere Einschränkungen vorhanden sind und in parallelen, verketteten und verzweigten Strukturen organisiert sind. Eine intuitive Lösung, nämlich die Chain-of-Thought (CoT), wird erwartungsgemäß die Fähigkeiten von LLMs universell verbessern. Wir stellen jedoch fest, dass die herkömmliche CoT aufgrund ihres oberflächlichen Argumentationsmusters, das lediglich die Anweisungen umschreibt, eine negative Auswirkung auf die Leistung hat. Sie versagt dabei, die Zusammensetzungen der Einschränkungen zu analysieren, um ihre Beziehungen über Hierarchien von Typen und Dimensionen hinweg zu identifizieren. Zu diesem Zweck schlagen wir eine systematische Methode vor, um LLMs bei der Bewältigung komplexer Anweisungen zu stärken, indem die Argumentation für die Skalierung der Rechenleistung zur Testzeit gefördert wird. Zunächst gehen wir von der Zerlegung komplexer Anweisungen unter bestehenden Taxonomien aus und schlagen eine reproduzierbare Methode zur Datenerfassung vor. Zweitens nutzen wir Verstärkungslernen (RL) mit überprüfbaren, regelzentrierten Belohnungssignalen, um speziell die Argumentation für die Befolgung von Anweisungen zu fördern. Wir adressieren die oberflächliche, nicht wesentliche Natur der Argumentation unter komplexen Anweisungen durch kontrastive Proben für eine überlegene CoT-Durchsetzung. Zusätzlich nutzen wir das Verhaltensklonen von Experten, um einen stetigen Verteilungswandel von schnell denkenden LLMs hin zu geschickten Argumentierern zu erleichtern. Umfangreiche Bewertungen auf sieben umfassenden Benchmarks bestätigen die Gültigkeit der vorgeschlagenen Methode, bei der ein 1,5B LLM eine Steigerung von 11,74 % erzielt und eine Leistung erreicht, die mit einem 8B LLM vergleichbar ist. Codes und Daten sind verfügbar unter https://github.com/yuleiqin/RAIF.
Die Belohnungsmodellierung ist ein entscheidender Schritt beim Aufbau sicherer Basismodelle, wenn Reinforcement Learning from Human Feedback (RLHF) zur Ausrichtung von Large Language Models (LLMs) eingesetzt wird. Belohnungsmodellierung basierend auf dem Bradley-Terry (BT)-Modell geht jedoch von einer globalen Belohnungsfunktion aus und kann die inhärent vielfältigen und heterogenen menschlichen Präferenzen nicht erfassen. Diese Vereinfachung begrenzt daher die Fähigkeit von LLMs, Personalisierung und pluralistische Ausrichtung zu unterstützen. Theoretisch zeigen wir, dass, wenn menschliche Präferenzen einer Mischverteilung verschiedener Untergruppen folgen, ein einzelnes BT-Modell einen irreduziblen Fehler aufweist. Während bestehende Lösungen, wie Multi-Objective-Learning mit detaillierten Annotationen, dieses Problem teilweise adressieren, sind sie kostspielig und durch vordefinierte Attribute eingeschränkt, wodurch sie die Vielfalt menschlicher Werte nicht vollständig erfassen können. In dieser Arbeit stellen wir MiCRo vor, ein zweistufiges Framework, das die personalisierte Präferenzlernfähigkeit verbessert, indem es groß angelegte binäre Präferenzdatensätze nutzt, ohne explizite detaillierte Annotationen zu benötigen. In der ersten Stufe führt MiCRo einen kontextbewussten Mischmodellierungsansatz ein, um diverse menschliche Präferenzen zu erfassen. In der zweiten Stufe integriert MiCRo eine Online-Routing-Strategie, die die Mischgewichte dynamisch an spezifische Kontexte anpasst, um Mehrdeutigkeiten aufzulösen und eine effiziente und skalierbare Präferenzanpassung mit minimaler zusätzlicher Überwachung zu ermöglichen. Experimente mit mehreren Präferenzdatensätzen zeigen, dass MiCRo effektiv diverse menschliche Präferenzen erfasst und die nachgelagerte Personalisierung signifikant verbessert.
Die rasante Entwicklung von künstlich generierten Inhalten (Artificial Intelligence Generated Content, AIGC) in visuellen Domänen hat zu hochrealistischen synthetischen Bildern und Videos geführt, die durch fortschrittliche generative Frameworks wie diffusionsbasierte Architekturen angetrieben werden. Während diese Durchbrüche erhebliche Möglichkeiten eröffnen, werfen sie gleichzeitig kritische Bedenken hinsichtlich der Authentizität und Integrität von Inhalten auf. Viele derzeitige AIGC-Erkennungsmethoden fungieren als Black-Box-Binärklassifikatoren, die nur begrenzte Interpretierbarkeit bieten, und kein Ansatz unterstützt die Erkennung sowohl von Bildern als auch von Videos in einem einheitlichen Framework. Diese doppelte Einschränkung beeinträchtigt die Transparenz der Modelle, verringert die Vertrauenswürdigkeit und behindert die praktische Implementierung. Um diese Herausforderungen zu bewältigen, stellen wir IVY-FAKE vor, einen neuartigen, einheitlichen und groß angelegten Datensatz, der speziell für die erklärbare multimodale AIGC-Erkennung entwickelt wurde. Im Gegensatz zu früheren Benchmarks, die unter fragmentierter Modalitätsabdeckung und spärlichen Annotationen leiden, enthält IVY-FAKE über 150.000 reich annotierte Trainingsbeispiele (Bilder und Videos) und 18.700 Evaluierungsbeispiele, die jeweils von detaillierten natürlichen Sprachbegründungen über einfache Binärlabels hinaus begleitet werden. Darauf aufbauend schlagen wir den Ivy Explainable Detector (IVY-XDETECTOR) vor, eine einheitliche AIGC-Erkennungs- und Erklärungsarchitektur, die gemeinsam erklärbare Erkennung für sowohl Bild- als auch Videoinhalte durchführt. Unser einheitliches Vision-Sprache-Modell erzielt state-of-the-art Leistungen über mehrere Bild- und Videoerkennungs-Benchmarks hinweg und unterstreicht die bedeutenden Fortschritte, die durch unseren Datensatz und unser Modellierungsframework ermöglicht werden. Unsere Daten sind öffentlich verfügbar unter https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
Chain-of-Thought (CoT) Prompting ermöglicht komplexes Denken in großen Sprachmodellen (LLMs), einschließlich Anwendungen im Bereich der Informationsbeschaffung (Information Retrieval, IR). Es führt jedoch häufig zu Überdenken, bei dem Modelle übermäßig lange und semantisch redundante Spuren erzeugen, die wenig bis keinen Nutzen bieten. Wir identifizieren zwei zentrale Herausforderungen in der IR: redundante Trajektorien, die ähnliche Zustände erneut durchlaufen, und fehlgeleitetes Denken, das von der Benutzerabsicht abweicht. Um diese Probleme zu lösen, schlagen wir State Machine Reasoning (SMR) vor, ein transitionsbasiertes Denkframework, das aus diskreten Aktionen (Refine, Rerank, Stop) besteht und frühzeitiges Stoppen sowie fein abgestimmte Kontrolle unterstützt. Experimente mit den Benchmarks BEIR und BRIGHT zeigen, dass SMR die Retrieval-Leistung (nDCG@10) um 3,4 % verbessert und gleichzeitig die Token-Nutzung um 74,4 % reduziert. Es generalisiert über verschiedene LLMs und Retrieval-Systeme hinweg, ohne aufgabenbezogene Anpassungen zu erfordern, und bietet somit eine praktische Alternative zum konventionellen CoT-Denken. Der Code und weitere Details sind unter https://github.com/ldilab/SMR verfügbar.
Die direkte Ausbildung von Large Language Models (LLMs) für Multi-Agenten-Systeme (MAS) bleibt aufgrund komplexer Belohnungsmodellierung, dynamischer Agenteninteraktionen und anspruchsvoller Generalisierungsanforderungen eine Herausforderung. Diese Arbeit untersucht, ob Nachschulungstechniken, insbesondere Supervised Fine-Tuning (SFT) und Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), effektiv auf Multi-Agenten-Szenarien verallgemeinern können. Wir verwenden wirtschaftliches Denken als Testumgebung, da es auf soliden mathematischen und spieltheoretischen Grundlagen basiert, strukturiertes analytisches Denken erfordert und für reale Anwendungen wie Marktgestaltung, Ressourcenallokation und Politikanalyse relevant ist. Wir stellen Recon (Reasoning like an ECONomist) vor, ein Open-Source-LLM mit 7 Milliarden Parametern, das auf einem handgefertigten Datensatz von 2.100 hochwertigen wirtschaftlichen Denkproblemen nachgeschult wurde. Eine umfassende Bewertung auf wirtschaftlichen Denkbenchmarks und Multi-Agenten-Spielen zeigt deutliche Verbesserungen in strukturiertem Denken und wirtschaftlicher Rationalität. Diese Ergebnisse unterstreichen das Potenzial domänenspezifischer Nachschulung zur Verbesserung des Denkens und der Agentenausrichtung und beleuchten die Rollen von SFT und RL bei der Gestaltung des Modellverhaltens. Der Code ist verfügbar unter https://github.com/MasterZhou1/Recon.
Bildbearbeitung ist eine wichtige Aufgabe in den Bereichen Computergrafik, Bildverarbeitung und visuelle Effekte, wobei aktuelle diffusionsbasierte Methoden schnelle und hochwertige Ergebnisse erzielen. Bearbeitungen, die signifikante strukturelle Änderungen erfordern, wie nicht-rigide Verformungen, Objektmodifikationen oder Inhaltsgenerierung, bleiben jedoch herausfordernd. Bestehende Ansätze mit wenigen Bearbeitungsschritten erzeugen Artefakte wie irrelevante Texturen oder haben Schwierigkeiten, Schlüsselattribute des Ausgangsbildes (z. B. Pose) zu erhalten. Wir stellen Cora vor, ein neuartiges Bearbeitungsframework, das diese Einschränkungen durch die Einführung von korrespondenzbewusster Rauschkorrektur und interpolierten Aufmerksamkeitskarten überwindet. Unsere Methode richtet Texturen und Strukturen zwischen dem Ausgangs- und dem Zielbild durch semantische Korrespondenz aus, ermöglicht eine präzise Texturübertragung und generiert bei Bedarf neue Inhalte. Cora bietet Kontrolle über das Gleichgewicht zwischen Inhaltsgenerierung und -erhaltung. Umfangreiche Experimente zeigen, dass Cora quantitativ und qualitativ in der Erhaltung von Struktur, Texturen und Identität bei verschiedenen Bearbeitungen, einschließlich Poseänderungen, Objekthinzufügung und Texturverfeinerungen, überzeugt. Nutzerstudien bestätigen, dass Cora überlegene Ergebnisse liefert und Alternativen übertrifft.
Angetrieben von einem großen Sprachmodell (LLM) operiert ein Web-Browsing-Agent auf menschenähnliche Weise in Webbrowsern und bietet einen hochtransparenten Ansatz zur Automatisierung einer Vielzahl alltäglicher Aufgaben. Da Web-Agenten zunehmend leistungsfähiger werden und Kompetenz in allgemeinen Browsing-Aufgaben demonstrieren, stellt sich eine kritische Frage: Können sie über allgemeines Browsing hinaus robust Aufgaben bewältigen, die mühsam und komplex sind oder Tätigkeiten, die Menschen oft selbst vermeiden? In diesem Artikel stellen wir WebChoreArena vor, einen neuen, vollständig reproduzierbaren Benchmark, der 532 sorgfältig kuratierte Aufgaben umfasst, die darauf abzielen, den Anwendungsbereich von WebArena über allgemeines Browsing hinaus auf arbeitsintensivere und mühsamere Aufgaben zu erweitern. WebChoreArena integriert systematisch drei zentrale Herausforderungen: (i) Massive-Speicher-Aufgaben, die eine präzise Abrufung großer Informationsmengen in den Beobachtungen erfordern, (ii) Berechnungsaufgaben, die präzises mathematisches Denken verlangen, und (iii) Langzeitgedächtnis-Aufgaben, die ein langfristiges Gedächtnis über mehrere Webseiten hinweg erfordern. Aufbauend auf den vollständig reproduzierbaren und weit verbreiteten vier WebArena-Simulationsumgebungen gewährleistet WebChoreArena strikte Reproduzierbarkeit und ermöglicht faire, direkte Vergleiche mit dem etablierten WebArena-Benchmark, wodurch wichtige Einblicke in den Fortschritt von Agenten gewonnen werden. Unsere experimentellen Ergebnisse zeigen, dass sich mit der Weiterentwicklung von LLMs, repräsentiert durch GPT-4o, Claude 3.7 Sonnet und Gemini 2.5 Pro, signifikante Leistungsverbesserungen in WebChoreArena beobachten lassen. Diese Ergebnisse deuten darauf hin, dass WebChoreArena gut geeignet ist, den Fortschritt modernster LLMs mit größerer Klarheit zu messen. Dennoch zeigen die Ergebnisse auch, dass selbst mit Gemini 2.5 Pro im Vergleich zu WebArena noch erheblicher Verbesserungsbedarf besteht, was die erhöhten Herausforderungen von WebChoreArena unterstreicht.
Die heutigen KI-Systeme haben vom Menschen entworfene, feste Architekturen und können sich nicht autonom und kontinuierlich selbst verbessern. Der Fortschritt der KI könnte selbst automatisiert werden. Wenn dies sicher geschieht, würde dies die KI-Entwicklung beschleunigen und es uns ermöglichen, ihre Vorteile viel früher zu nutzen. Meta-Lernen kann die Entdeckung neuer Algorithmen automatisieren, ist jedoch durch Verbesserungen erster Ordnung und die menschliche Gestaltung eines geeigneten Suchraums begrenzt. Die Gödel-Maschine schlug eine theoretische Alternative vor: eine sich selbst verbessernde KI, die sich wiederholt auf nachweislich vorteilhafte Weise modifiziert. Leider ist es in der Praxis unmöglich, zu beweisen, dass die meisten Änderungen insgesamt vorteilhaft sind. Wir stellen die Darwin-Gödel-Maschine (DGM) vor, ein sich selbst verbesserndes System, das iterativ seinen eigenen Code modifiziert (und damit auch seine Fähigkeit zur Modifikation seiner eigenen Codebasis verbessert) und jede Änderung empirisch mithilfe von Codierungs-Benchmarks validiert. Inspiriert von der darwinistischen Evolution und der Forschung zur Offenheit, verwaltet die DGM ein Archiv generierter Codierungs-Agenten. Sie erweitert das Archiv, indem sie einen Agenten daraus auswählt und ein Grundlagenmodell verwendet, um eine neue, interessante Version des ausgewählten Agenten zu erstellen. Diese offene Exploration bildet einen wachsenden Baum vielfältiger, hochwertiger Agenten und ermöglicht die parallele Erkundung vieler verschiedener Pfade durch den Suchraum. Empirisch verbessert die DGM automatisch ihre Codierungsfähigkeiten (z.B. bessere Code-Bearbeitungswerkzeuge, Langzeit-Kontextverwaltung, Peer-Review-Mechanismen), steigert die Leistung auf SWE-bench von 20,0 % auf 50,0 % und auf Polyglot von 14,2 % auf 30,7 %. Darüber hinaus übertrifft die DGM Baselines ohne Selbstverbesserung oder offene Exploration deutlich. Alle Experimente wurden mit Sicherheitsvorkehrungen (z.B. Sandboxing, menschliche Aufsicht) durchgeführt. Die DGM ist ein bedeutender Schritt hin zu einer sich selbst verbessernden KI, die in der Lage ist, ihre eigenen Meilensteine entlang von Pfaden zu sammeln, die sich in endlose Innovation entfalten.
Vision-Language-Modelle (VLMs) sollen effektives multimodales Denken ermöglichen und logisch kohärente Entscheidungen treffen, was für Aufgaben wie das Verständnis von Diagrammen und die Lösung räumlicher Probleme entscheidend ist. Allerdings mangelt es aktuellen VLM-Ansätzen an groß angelegten und gut strukturierten Trainingsdatensätzen. Um diese Lücke zu schließen, präsentieren wir VisualSphinx, den ersten groß angelegten synthetischen Datensatz für visuelles logisches Denken. Um die Herausforderung der Bildsynthese mit verankerten Antworten zu bewältigen, schlagen wir eine Regel-zu-Bild-Synthese-Pipeline vor, die Puzzle-Regeln aus Ausgangsfragen extrahiert und erweitert sowie den Code für die Synthese von verankerten Bildern zur Zusammenstellung von Puzzle-Beispielen generiert. Experimente zeigen, dass VLMs, die mit GRPO auf VisualSphinx trainiert werden, von der logischen Kohärenz und Lesbarkeit unseres Datensatzes profitieren und verbesserte Leistungen bei logischen Denkaufgaben erzielen. Die durch VisualSphinx entwickelten erweiterten Denkfähigkeiten kommen auch anderen Denkaufgaben wie algebraischem, arithmetischem und geometrischem Denken zugute.
Negative Guidance – die explizite Unterdrückung unerwünschter Attribute – bleibt eine grundlegende Herausforderung in Diffusionsmodellen, insbesondere bei Sampling-Verfahren mit wenigen Schritten. Während Classifier-Free Guidance (CFG) in Standardeinstellungen gut funktioniert, versagt es bei aggressiver Kompression der Sampling-Schritte aufgrund divergierender Vorhersagen zwischen positiven und negativen Zweigen. Wir präsentieren Normalized Attention Guidance (NAG), einen effizienten, trainingsfreien Mechanismus, der Extrapolation im Aufmerksamkeitsraum mit L1-basierter Normalisierung und Verfeinerung anwendet. NAG stellt eine effektive Negative Guidance wieder her, wo CFG versagt, und bewahrt dabei die Bildtreue. Im Gegensatz zu bestehenden Ansätzen generalisiert NAG über Architekturen (UNet, DiT), Sampling-Regime (wenige Schritte, mehrere Schritte) und Modalitäten (Bild, Video) hinweg und fungiert als universelles Plug-in mit minimalem Rechenaufwand. Durch umfangreiche Experimente zeigen wir konsistente Verbesserungen in der Textausrichtung (CLIP Score), der Bildtreue (FID, PFID) und der vom Menschen wahrgenommenen Qualität (ImageReward). Unsere Ablationsstudien validieren jede Designkomponente, während Benutzerstudien eine signifikante Präferenz für NAG-gesteuerte Ausgaben bestätigen. Als modellagnostischer Ansatz zur Inferenzzeit, der kein erneutes Training erfordert, bietet NAG mühelose Negative Guidance für alle modernen Diffusionsframeworks – Pseudocode im Anhang!
Diffusionsbasierte Sprachmodelle bieten eine überzeugende Alternative zu autoregressiven (AR) Modellen, indem sie parallele und kontrollierbare Generierung ermöglichen. Innerhalb dieser Modellfamilie erzielen Masked Diffusion Models (MDMs) die stärkste Leistung, liegen jedoch in Bezug auf Perplexität immer noch hinter AR-Modellen zurück und verfügen nicht über wichtige Effizienzmerkmale zur Inferenzzeit – insbesondere KV-Caching. In dieser Arbeit stellen wir Eso-LMs vor, eine neue Modellfamilie, die AR- und MDM-Paradigmen vereint und eine nahtlose Interpolation zwischen ihren Perplexitäten ermöglicht, während sie gleichzeitig ihre jeweiligen Einschränkungen überwindet. Eso-LMs setzen einen neuen Maßstab auf Standard-Benchmarks für Sprachmodellierung. Entscheidend ist, dass wir **als erste KV-Caching für MDMs** einführen, während die parallele Generierung erhalten bleibt, was die Inferenzeffizienz erheblich verbessert. In Kombination mit einem optimierten Sampling-Zeitplan erreicht unsere Methode eine bis zu **65-fach** schnellere Inferenz als Standard-MDMs und eine **4-fach** schnellere Inferenz als bisherige semi-autoregressive Ansätze. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite bereit: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
Das Open Whisper-style Speech Models (OWSM)-Projekt hat eine Reihe von vollständig offenen Sprach-Foundation-Modellen mit akademischen Ressourcen entwickelt, doch die Trainingsdaten bleiben unzureichend. Diese Arbeit verbessert OWSM durch die Integration von YODAS, einem groß angelegten, webgecrawlten Datensatz mit einer Creative-Commons-Lizenz. Die Einbindung von YODAS ist jedoch aufgrund seines unstrukturierten Charakters nicht trivial und führt zu Herausforderungen wie falschen Sprachlabels und Audio-Text-Fehlausrichtungen. Um dies zu bewältigen, entwickeln wir eine skalierbare Datenbereinigungs-Pipeline mit öffentlichen Toolkits, die einen Datensatz mit 166.000 Stunden Sprachdaten in 75 Sprachen liefert. Unsere neue Reihe von OWSM v4-Modellen, die auf diesem kuratierten Datensatz zusammen mit den bestehenden OWSM-Daten trainiert wurden, übertreffen frühere Versionen auf multilingualen Benchmarks deutlich. Unsere Modelle erreichen oder übertreffen sogar führende industrielle Modelle wie Whisper und MMS in mehreren Szenarien. Wir werden die bereinigten YODAS-Daten, vortrainierten Modelle und alle zugehörigen Skripte über das ESPnet-Toolkit öffentlich zugänglich machen.
Frühere Forschungen haben die Anwendung Multimodaler Großer Sprachmodelle (MLLMs) zur Interpretation von 3D-Szenen durch deren Darstellung als Videos untersucht. Diese Ansätze basieren in der Regel auf umfangreichen 3D-Dateneingaben, wie Punktwolken oder rekonstruierten Vogelperspektiven-Karten (BEV). In unserer Forschung erweitern wir dieses Feld, indem wir die Fähigkeit von MLLMs verbessern, 3D-Räume direkt aus Videodaten zu verstehen und zu analysieren, ohne zusätzliche 3D-Eingaben zu benötigen. Wir schlagen eine neuartige und effiziente Methode vor, das Video-3D-Geometrie-Große Sprachmodell (VG LLM). Unser Ansatz verwendet einen 3D-visuellen Geometrie-Encoder, der 3D-Priorinformationen aus Videosequenzen extrahiert. Diese Informationen werden mit visuellen Tokens kombiniert und in das MLLM eingespeist. Umfangreiche Experimente haben gezeigt, dass unsere Methode erhebliche Verbesserungen in verschiedenen Aufgaben im Zusammenhang mit dem Verständnis von 3D-Szenen und der räumlichen Argumentation erzielt hat, die alle direkt aus Videoquellen gelernt wurden. Beeindruckenderweise erreicht unser 4B-Modell, das nicht auf explizite 3D-Dateneingaben angewiesen ist, wettbewerbsfähige Ergebnisse im Vergleich zu bestehenden State-of-the-Art-Methoden und übertrifft sogar das Gemini-1.5-Pro in den VSI-Bench-Evaluierungen.
Jüngste Fortschritte in der Generativen KI und bei großen Sprachmodellen (Large Language Models, LLMs) haben die Erstellung von hochrealistischem synthetischem Content ermöglicht, was Bedenken hinsichtlich des potenziellen Missbrauchs, wie etwa Desinformation und Manipulation, aufwirft. Darüber hinaus bleibt die Erkennung von maschinell generierten Texten (Machine-Generated Text, MGT) aufgrund des Mangels an robusten Benchmarks, die die Generalisierbarkeit auf reale Szenarien bewerten, eine Herausforderung. In dieser Arbeit präsentieren wir eine Pipeline, um die Widerstandsfähigkeit modernster MGT-Detektoren (z. B. Mage, Radar, LLM-DetectAIve) gegenüber linguistisch fundierten adversarischen Angriffen zu testen. Um die Detektoren herauszufordern, feintunen wir Sprachmodelle mithilfe von Direct Preference Optimization (DPO), um den Stil von MGT in Richtung von menschengeschriebenen Texten (Human-Written Text, HWT) zu verschieben. Dies nutzt die Abhängigkeit der Detektoren von stilistischen Hinweisen aus, wodurch neue Generationen schwieriger zu erkennen sind. Zusätzlich analysieren wir die durch die Anpassung induzierten linguistischen Verschiebungen und welche Merkmale von den Detektoren zur Erkennung von MGT-Texten verwendet werden. Unsere Ergebnisse zeigen, dass Detektoren mit relativ wenigen Beispielen leicht getäuscht werden können, was zu einem signifikanten Rückgang der Erkennungsleistung führt. Dies unterstreicht die Bedeutung der Verbesserung von Erkennungsmethoden und ihrer Robustheit gegenüber unbekannten domänenspezifischen Texten.
Große Sprachmodelle (LLMs), die durch Verstärkungslernen mit überprüfbarer Belohnung (RLVR) trainiert wurden, haben Durchbrüche bei Aufgaben mit expliziter, automatisierbarer Überprüfung erzielt, wie beispielsweise Softwareprogrammierung und mathematische Probleme. Die Anwendung von RLVR auf die elektronische Designautomatisierung (EDA), insbesondere die automatische Generierung von Hardwarebeschreibungssprachen (HDLs) wie Verilog aus natürlicher Sprache (NL), stellt jedoch drei zentrale Herausforderungen dar: das Fehlen automatisierter und genauer Überprüfungsumgebungen, die Knappheit hochwertiger NL-Code-Paare und die prohibitiv hohen Rechenkosten von RLVR. Zu diesem Zweck führen wir CodeV-R1 ein, ein RLVR-Framework für das Training von Verilog-generierenden LLMs. Zunächst entwickeln wir einen regelbasierten Testbench-Generator, der eine robuste Äquivalenzprüfung gegen Referenzimplementierungen durchführt. Zweitens schlagen wir eine Round-Trip-Datensynthese-Methode vor, die Open-Source-Verilog-Snippets mit LLM-generierten NL-Beschreibungen kombiniert, die Code-NL-Code-Konsistenz über den generierten Testbench überprüft und nicht äquivalente Beispiele herausfiltert, um einen hochwertigen Datensatz zu erzeugen. Drittens verwenden wir eine zweistufige „Distill-then-RL“-Trainingspipeline: Destillation für den Kaltstart der Fähigkeiten zur logischen Schlussfolgerung, gefolgt von adaptivem DAPO, unserem neuartigen RLVR-Algorithmus, der die Trainingskosten durch adaptive Anpassung der Abtastrate reduzieren kann. Das resultierende Modell, CodeV-R1-7B, erreicht 68,6 % und 72,9 % pass@1 auf VerilogEval v2 bzw. RTLLM v1.1 und übertrifft damit den bisherigen Stand der Technik um 12~20 %, während es die Leistung von 671B DeepSeek-R1 erreicht oder sogar übertrifft. Wir werden unser Modell, die Trainingspipeline und den Datensatz veröffentlichen, um die Forschung in den EDA- und LLM-Communities zu fördern.
Offene Benchmarks sind entscheidend für die Bewertung und Weiterentwicklung großer Sprachmodelle, da sie Reproduzierbarkeit und Transparenz bieten. Ihre Zugänglichkeit macht sie jedoch zu wahrscheinlichen Zielen von Testdatenkontamination. In dieser Arbeit stellen wir DyePack vor, ein Framework, das Backdoor-Angriffe nutzt, um Modelle zu identifizieren, die Benchmark-Testdaten während des Trainings verwendet haben, ohne Zugriff auf den Verlust, die Logits oder interne Details des Modells zu benötigen. Ähnlich wie Banken Farbpäckchen mit ihrem Geld mischen, um Räuber zu markieren, mischt DyePack Backdoor-Beispiele mit den Testdaten, um Modelle zu kennzeichnen, die darauf trainiert wurden. Wir schlagen ein prinzipielles Design vor, das mehrere Backdoors mit stochastischen Zielen integriert und eine exakte Berechnung der falsch-positiven Rate (FPR) ermöglicht, wenn jedes Modell gekennzeichnet wird. Dies verhindert nachweislich falsche Anschuldigungen und liefert gleichzeitig starke Beweise für jeden erkannten Fall von Kontamination. Wir evaluieren DyePack an fünf Modellen über drei Datensätze hinweg, die sowohl Multiple-Choice- als auch offene Generierungsaufgaben abdecken. Bei Multiple-Choice-Fragen erkennt es erfolgreich alle kontaminierten Modelle mit garantierten FPRs von nur 0,000073 % auf MMLU-Pro und 0,000017 % auf Big-Bench-Hard unter Verwendung von acht Backdoors. Bei offenen Generierungsaufgaben generalisiert es gut und identifiziert alle kontaminierten Modelle auf Alpaca mit einer garantierten falsch-positiven Rate von nur 0,127 % unter Verwendung von sechs Backdoors.
Die Effizienz der Tokenisierung spielt eine entscheidende Rolle für die Leistung und die Kosten von großen Sprachmodellen (LLMs), doch die meisten Modelle verlassen sich auf statische Tokenizer, die für allgemeine Textkorpora optimiert sind. Die festen Vokabulare dieser Tokenizer passen sich oft nicht an domänen- oder sprachspezifische Eingaben an, was zu längeren Token-Sequenzen und höheren Rechenkosten führt. Wir stellen zip2zip vor, ein Framework, das es LLMs ermöglicht, das Token-Vokabular zur Inferenzzeit dynamisch anzupassen, wodurch weniger Token generiert werden und die Inferenz somit schneller abläuft. zip2zip besteht aus drei Schlüsselkomponenten: (1) einem Tokenizer basierend auf der Lempel-Ziv-Welch (LZW)-Komprimierung, der Token inkrementell in wiederverwendbare „Hypertoken“ komprimiert; (2) einer Embedding-Schicht, die Embeddings für neu gebildete Hypertoken zur Laufzeit berechnet; und (3) einer Variante des kausalen Sprachmodellierens, die das Modell darauf trainiert, mit hypertokenisierten, komprimierten Sequenzen zu arbeiten. Wir zeigen, dass ein bestehendes LLM in 10 GPU-Stunden durch parameter-effizientes Fine-Tuning mit zip2zip ausgestattet werden kann. Die resultierenden zip2zip-LLMs lernen effektiv, Hypertoken zur Inferenzzeit zu nutzen, wodurch die Länge der Eingabe- und Ausgabesequenzen um 20-60\% reduziert wird, was zu erheblichen Verbesserungen bei der Inferenzlatenz führt.
Aufgabenorientierte Dialogsysteme stehen oft vor Herausforderungen, wenn Benutzeräußerungen semantisch vollständig erscheinen, aber die notwendigen strukturellen Informationen für angemessene Systemaktionen fehlen. Dies ergibt sich, weil Benutzer ihre eigenen Bedürfnisse häufig nicht vollständig verstehen, während Systeme präzise Intent-Definitionen benötigen. Aktuelle LLM-basierte Agenten können nicht effektiv zwischen linguistisch vollständigen und kontextuell auslösbaren Ausdrücken unterscheiden und verfügen nicht über Rahmenwerke für die kollaborative Intent-Bildung. Wir stellen STORM vor, ein Framework, das asymmetrische Informationsdynamiken durch Gespräche zwischen UserLLM (vollständiger interner Zugriff) und AgentLLM (nur beobachtbares Verhalten) modelliert. STORM erzeugt annotierte Korpora, die Ausdrucksverläufe und latente kognitive Übergänge erfassen und eine systematische Analyse der Entwicklung des kollaborativen Verständnisses ermöglichen. Unsere Beiträge umfassen: (1) die Formalisierung der asymmetrischen Informationsverarbeitung in Dialogsystemen; (2) die Modellierung der Intent-Bildung, die die Entwicklung des kollaborativen Verständnisses verfolgt; und (3) Evaluationsmetriken, die interne kognitive Verbesserungen neben der Aufgabenleistung messen. Experimente mit vier Sprachmodellen zeigen, dass moderate Unsicherheit (40-60%) in bestimmten Szenarien vollständige Transparenz übertreffen kann, wobei modellspezifische Muster eine Überprüfung der optimalen Informationsvollständigkeit in der Mensch-KI-Kollaboration nahelegen. Diese Erkenntnisse tragen zum Verständnis der asymmetrischen Denkdynamiken bei und informieren das Design von Unsicherheits-kalibrierten Dialogsystemen.
Modell-Distillation ist unerlässlich geworden, um kleinere, einsetzbare Sprachmodelle zu erstellen, die die Fähigkeiten größerer Systeme beibehalten. Die weit verbreitete Nutzung wirft jedoch Bedenken hinsichtlich der Widerstandsfähigkeit gegen adversarische Manipulationen auf. Diese Arbeit untersucht die Anfälligkeit von destillierten Modellen für die adversarische Injektion von voreingenommenen Inhalten während des Trainings. Wir zeigen, dass Angreifer subtile Verzerrungen in Lehrer-Modelle durch minimale Datenvergiftung einbringen können, die sich auf Schüler-Modelle ausbreiten und erheblich verstärkt werden. Wir schlagen zwei Ausbreitungsmodi vor: Ungezielte Ausbreitung, bei der die Verzerrung mehrere Aufgaben beeinflusst, und Gezielte Ausbreitung, die sich auf spezifische Aufgaben konzentriert, während das normale Verhalten an anderer Stelle beibehalten wird. Mit nur 25 vergifteten Beispielen (0,25 % Vergiftungsrate) erzeugen Schüler-Modelle in gezielten Szenarien in 76,9 % der Fälle voreingenommene Antworten – mehr als die 69,4 % bei Lehrer-Modellen. Bei der ungezielten Ausbreitung tritt adversarische Verzerrung in Schüler-Modellen bei unbekannten Aufgaben 6- bis 29-mal häufiger auf. Wir validieren die Ergebnisse über sechs Arten von Verzerrungen (gezielte Werbung, Phishing-Links, narrative Manipulationen, unsichere Codierungspraktiken), verschiedene Destillationsmethoden und unterschiedliche Modalitäten, die Text- und Codegenerierung umfassen. Unsere Bewertung deckt Schwächen in aktuellen Verteidigungsmechanismen auf – Perplexitätsfilterung, Bias-Erkennungssysteme und LLM-basierte Autorater-Frameworks – gegen diese Angriffe. Die Ergebnisse offenbaren erhebliche Sicherheitslücken in destillierten Modellen und unterstreichen die Notwendigkeit spezialisierter Schutzmaßnahmen. Wir schlagen praktische Designprinzipien für den Aufbau effektiver Strategien zur Minderung adversarischer Verzerrungen vor.
Video Anomaly Understanding (VAU) ist entscheidend für Anwendungen wie Smart Cities, Sicherheitsüberwachung und Katastrophenwarnsysteme, bleibt jedoch aufgrund der Anforderungen an fein abgestimmte räumlich-zeitliche Wahrnehmung und robuste Schlussfolgerungen unter Unklarheiten eine Herausforderung. Trotz Fortschritten in der Anomalieerkennung mangelt es bestehenden Methoden oft an Interpretierbarkeit, und sie haben Schwierigkeiten, die kausalen und kontextuellen Aspekte von abnormalen Ereignissen zu erfassen. Diese Einschränkung wird weiter verstärkt durch das Fehlen umfassender Benchmarks zur Bewertung der Schlussfolgerungsfähigkeit in Anomalieszenarien. Um beide Herausforderungen zu bewältigen, stellen wir VAU-R1 vor, ein dateneffizientes Framework, das auf Multimodalen Großen Sprachmodellen (MLLMs) basiert und die Anomalieschlussfolgerung durch Reinforcement Fine-Tuning (RFT) verbessert. Zusätzlich schlagen wir VAU-Bench vor, den ersten Chain-of-Thought-Benchmark, der speziell für die Videoanomalieschlussfolgerung entwickelt wurde und Multiple-Choice-Fragen, detaillierte Begründungen, zeitliche Annotationen und beschreibende Bildunterschriften umfasst. Empirische Ergebnisse zeigen, dass VAU-R1 die Genauigkeit der Fragebeantwortung, die zeitliche Verankerung und die Schlussfolgerungskohärenz in verschiedenen Kontexten signifikant verbessert. Zusammen bilden unsere Methode und der Benchmark eine solide Grundlage für interpretierbares und schlussfolgerungsbewusstes Video Anomaly Understanding. Unser Code ist verfügbar unter https://github.com/GVCLab/VAU-R1.
Detoxifikation, die Aufgabe, schädliche Sprache in nicht-toxischen Text umzuschreiben, hat angesichts der zunehmenden Verbreitung von toxischen Inhalten im Internet immer mehr an Bedeutung gewonnen. Hochwertige parallele Datensätze für die Detoxifikation, insbesondere für Hassrede, bleiben jedoch aufgrund der Kosten und Sensibilität der menschlichen Annotation knapp. In diesem Artikel schlagen wir eine neuartige LLM-in-the-loop-Pipeline vor, die GPT-4o-mini für die automatisierte Detoxifikation nutzt. Zunächst replizieren wir die ParaDetox-Pipeline, indem wir menschliche Annotatoren durch ein LLM ersetzen, und zeigen, dass das LLM vergleichbar mit menschlicher Annotation abschneidet. Darauf aufbauend erstellen wir PARADEHATE, einen groß angelegten parallelen Datensatz speziell für die Detoxifikation von Hassrede. Wir veröffentlichen PARADEHATE als Benchmark mit über 8.000 Hass-/Nicht-Hass-Textpaaren und evaluieren eine Vielzahl von Baseline-Methoden. Experimentelle Ergebnisse zeigen, dass Modelle wie BART, die auf PARADEHATE feinabgestimmt wurden, eine bessere Leistung in Bezug auf Stilgenauigkeit, Inhaltserhaltung und Flüssigkeit erzielen, was die Effektivität von LLM-generiertem Detoxifikationstext als skalierbare Alternative zur menschlichen Annotation demonstriert.
Retrieval-Augmented Generation (RAG) verbessert die Aktualität und Faktentreue von Antworten. Bisherige Evaluierungen testen jedoch selten, wie gut diese Systeme mit realweltlichem Rauschen, Konflikten zwischen internen und extern abgerufenen Kontexten oder sich schnell ändernden Fakten umgehen können. Wir stellen Retrieval-Aware Robustness Evaluation (RARE) vor, ein einheitliches Framework und groß angelegtes Benchmark, das gemeinsam Abfrage- und Dokumentstörungen über dynamische, zeitkritische Korpora hinweg belastet. Ein zentrales Merkmal von RARE ist eine wissensgraphengetriebene Synthese-Pipeline (RARE-Get), die automatisch Einzel- und Mehrschrittrelationen aus dem angepassten Korpus extrahiert und mehrstufige Fragensätze ohne manuellen Eingriff generiert. Mithilfe dieser Pipeline erstellen wir einen Datensatz (RARE-Set), der 400 Experten-level-zeitkritische Dokumente aus den Bereichen Finanzen, Wirtschaft und Politik sowie 48.322 Fragen umfasst, deren Verteilung sich mit den zugrunde liegenden Quellen verändert. Um die Resilienz zu quantifizieren, formalisieren wir abrufbedingte Robustheitsmetriken (RARE-Met), die die Fähigkeit eines Modells erfassen, korrekt zu bleiben oder sich zu erholen, wenn Abfragen, Dokumente oder reale Abrufergebnisse systematisch verändert werden. Unsere Ergebnisse zeigen, dass RAG-Systeme überraschend anfällig für Störungen sind, wobei die Dokumentrobustheit unabhängig von der Größe oder Architektur des Generators durchweg der schwächste Punkt ist. RAG-Systeme zeigen durchweg eine geringere Robustheit bei Mehrschrittfragen im Vergleich zu Einzelschrittfragen über alle Domänen hinweg.
Große Sprachmodelle (LLMs) werden zunehmend anhand von Multiple-Choice-Aufgaben mit einer einzigen richtigen Antwort bewertet, doch viele reale Probleme erfordern die Identifizierung aller korrekten Antworten aus einer Reihe von Optionen. Diese Fähigkeit bleibt weitgehend unerforscht. Wir stellen SATA-BENCH vor, den ersten dedizierten Benchmark zur Bewertung von LLMs bei „Wählen Sie alle zutreffenden Antworten aus“ (SATA)-Fragen in verschiedenen Domänen, einschließlich Leseverständnis, Recht und Biomedizin. Unsere Auswertung von 27 Open-Source- und proprietären Modellen zeigt eine erhebliche Lücke: Selbst das stärkste Modell erreicht nur 41,8 % exakte Übereinstimmung, was die Unfähigkeit von LLMs offenbart, alle korrekten Antworten zuverlässig zu identifizieren. Wir stellen fest, dass diese Schwäche auf zwei zentrale Herausforderungen zurückzuführen ist: Auswahlverzerrung – Modelle bevorzugen bestimmte Optionen unabhängig vom Inhalt – und Anzahlverzerrung – Modelle scheitern daran, die korrekte Anzahl von Antworten vorherzusagen. Um diese Probleme zu adressieren, schlagen wir Choice Funnel vor, eine Dekodierungsstrategie, die Token-Debiasing mit adaptiver Schwellwertbildung kombiniert, um Modelle zu vollständigen und genauen Auswahlentscheidungen zu führen. Choice Funnel erreicht bis zu 29 % höhere exakte Übereinstimmung als konkurrierende Baselines und reduziert gleichzeitig die Inferenzkosten um über 64 %. Unsere Ergebnisse offenbaren grundlegende Grenzen aktueller LLMs und führen ein neues Framework zur Diagnose und Verbesserung von Mehrfachantworten-Argumentation ein. Wir veröffentlichen SATA-BENCH und Choice Funnel, um die Entwicklung von LLMs für robuste Entscheidungsfindung in realistischen, mehrfachantworten-basierten Anwendungen zu fördern.
Textgesteuerte 3D-Bearbeitung zielt darauf ab, semantisch relevante lokale 3D-Regionen präzise zu bearbeiten, was ein erhebliches Potenzial für verschiedene praktische Anwendungen, von 3D-Spielen bis hin zur Filmproduktion, birgt. Bestehende Methoden folgen typischerweise einem sichtunabhängigen Paradigma: Sie bearbeiten 2D-Ansichten undifferenziert und projizieren sie zurück in den 3D-Raum. Dabei werden jedoch die unterschiedlichen abhängigkeiten zwischen den Ansichten übersehen, was zu inkonsistenter Multi-View-Bearbeitung führt. In dieser Studie argumentieren wir, dass eine ideale konsistente 3D-Bearbeitung durch ein progressives Ansichten-Paradigma erreicht werden kann, das Bearbeitungssemantik von der bearbeitungsrelevanten Ansicht auf andere bearbeitungssparsame Ansichten überträgt. Konkret schlagen wir Pro3D-Editor vor, ein neuartiges Framework, das hauptsächlich aus Primary-view Sampler, Key-view Render und Full-view Refiner besteht. Der Primary-view Sampler wählt dynamisch die bearbeitungsrelevanteste Ansicht als primäre Ansicht aus und bearbeitet sie. Der Key-view Render überträgt die Bearbeitungssemantik präzise von der primären Ansicht auf andere Schlüsselansichten durch seine Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). Der Full-view Refiner bearbeitet und verfeinert das 3D-Objekt basierend auf den bearbeiteten Multi-Views. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Methoden in Bezug auf Bearbeitungsgenauigkeit und räumliche Konsistenz übertrifft.
Die steigenden Rechenkosten und begrenzten Ressourcen unterstreichen den dringenden Bedarf an budgetierter Iterationstraining, das darauf abzielt, optimales Lernen innerhalb vorgegebener Iterationsbudgets zu erreichen. Während Lernratenpläne die Leistung verschiedener Netzwerke und Aufgaben grundlegend beeinflussen, insbesondere in Szenarien mit budgetierten Iterationen, bleibt ihre Gestaltung weitgehend heuristisch und ohne theoretische Grundlagen. Darüber hinaus erfordert der optimale Lernratenplan eine umfangreiche Versuchs- und Irrtumsauswahl, was den Trainingsprozess ineffizient macht. In dieser Arbeit schlagen wir den Unified Budget-Aware (UBA) Plan vor, einen theoretisch fundierten Lernratenplan, der unter verschiedenen begrenzten Trainingsbudgets konsistent besser abschneidet als häufig verwendete Pläne bei verschiedenen Architekturen und Aufgaben. Zunächst schließen wir die Lücke, indem wir ein neuartiges Trainingsbudget-optimiertes Framework konstruieren, das explizit die Robustheit gegenüber Variationen der Landschaftskrümmung berücksichtigt. Aus diesem Framework leiten wir den UBA-Plan ab, der durch einen einzigen Hyperparameter varphi gesteuert wird, der einen Kompromiss zwischen Flexibilität und Einfachheit bietet und die Notwendigkeit einer netzwerkspezifischen numerischen Optimierung eliminiert. Darüber hinaus stellen wir eine theoretische Verbindung zwischen varphi und der Konditionszahl her, was unserer Methode Interpretation und Rechtfertigung verleiht. Zusätzlich beweisen wir die Konvergenz für verschiedene Werte von varphi. Wir bieten praktische Richtlinien für seine Auswahl durch theoretische Analyse und empirische Ergebnisse. Umfangreiche experimentelle Ergebnisse zeigen, dass UBA die häufig verwendeten Pläne bei verschiedenen Vision- und Sprachaufgaben, die Netzwerkarchitekturen (z.B. ResNet, OLMo) und Skalen umfassen, unter verschiedenen Trainings-Iterationsbudgets konsistent übertrifft.
Dieses Papier befasst sich mit kritischen Lücken in der Bewertung von Sprachmodellen für die arabische Sprache, indem es umfassende theoretische Richtlinien etabliert und einen neuartigen Bewertungsrahmen einführt. Zunächst analysieren wir bestehende Evaluationsdatensätze für Arabisch und identifizieren erhebliche Mängel in Bezug auf linguistische Genauigkeit, kulturelle Ausrichtung und methodische Strenge. Um diese Einschränkungen bei großen Sprachmodellen (LLMs) zu überwinden, präsentieren wir den Arabic Depth Mini Dataset (ADMD), eine sorgfältig kuratierte Sammlung von 490 anspruchsvollen Fragen, die zehn Hauptbereiche (42 Unterbereiche, siehe Abbildung 1) abdecken. Mit ADMD bewerten wir fünf führende Sprachmodelle: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B und Qwen-Max. Unsere Ergebnisse zeigen erhebliche Unterschiede in der Modellleistung über verschiedene Bereiche hinweg, mit besonderen Herausforderungen in Bereichen, die tiefes kulturelles Verständnis und spezialisiertes Wissen erfordern. Claude 3.5 Sonnet erzielte die höchste Gesamtgenauigkeit von 30 % und zeigte relative Stärken in den Bereichen mathematische Theorie in Arabisch, arabische Sprache und islamische Domänen. Diese Arbeit bietet sowohl theoretische Grundlagen als auch praktische Einblicke zur Verbesserung der Bewertung von Sprachmodellen für Arabisch und betont die Bedeutung von kultureller Kompetenz neben technischen Fähigkeiten.
Dieses Papier befasst sich mit kritischen Lücken in der Bewertung von Sprachmodellen für die arabische Sprache, indem es umfassende theoretische Richtlinien etabliert und einen neuartigen Bewertungsrahmen einführt. Zunächst analysieren wir bestehende Evaluationsdatensätze für Arabisch und identifizieren erhebliche Mängel in Bezug auf linguistische Genauigkeit, kulturelle Ausrichtung und methodische Strenge. Um diese Einschränkungen bei großen Sprachmodellen (LLMs) zu überwinden, präsentieren wir den Arabic Depth Mini Dataset (ADMD), eine sorgfältig kuratierte Sammlung von 490 anspruchsvollen Fragen, die zehn Hauptbereiche (42 Unterbereiche, siehe Abbildung 1) abdecken. Mit ADMD bewerten wir fünf führende Sprachmodelle: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B und Qwen-Max. Unsere Ergebnisse zeigen erhebliche Unterschiede in der Modellleistung über verschiedene Bereiche hinweg, mit besonderen Herausforderungen in Bereichen, die tiefes kulturelles Verständnis und spezialisiertes Wissen erfordern. Claude 3.5 Sonnet erzielte die höchste Gesamtgenauigkeit von 30 % und zeigte relative Stärken in den Bereichen mathematische Theorie in Arabisch, arabische Sprache und islamische Domänen. Diese Arbeit bietet sowohl theoretische Grundlagen als auch praktische Einblicke zur Verbesserung der Bewertung von Sprachmodellen für Arabisch und betont die Bedeutung von kultureller Kompetenz neben technischen Fähigkeiten.
Die Erzeugung von Bildern aus Texten, die komplexe und neuartige Objektanordnungen beinhalten, bleibt eine erhebliche Herausforderung für aktuelle Text-zu-Bild (T2I)-Modelle. Obwohl frühere layoutbasierte Methoden die Objektanordnungen mithilfe räumlicher Einschränkungen mit 2D-Layouts verbessern, haben sie oft Schwierigkeiten, die 3D-Positionierung zu erfassen, und opfern dabei Qualität und Kohärenz. In dieser Arbeit stellen wir ComposeAnything vor, ein neuartiges Framework zur Verbesserung der kompositionellen Bildgenerierung, ohne bestehende T2I-Modelle neu trainieren zu müssen. Unser Ansatz nutzt zunächst die Chain-of-Thought-Fähigkeiten von LLMs, um 2,5D-semantische Layouts aus Texten zu erzeugen, die aus 2D-Objektbegrenzungsrahmen mit Tiefeninformationen und detaillierten Beschreibungen bestehen. Basierend auf diesem Layout generieren wir eine räumlich und tiefenbewusste grobe Zusammensetzung von Objekten, die die beabsichtigte Komposition einfängt und als starke und interpretierbare Prior dient, die die stochastische Rauschinitialisierung in diffusionsbasierten T2I-Modellen ersetzt. Diese Prior leitet den Denoising-Prozess durch Objekt-Prior-Verstärkung und räumlich gesteuertes Denoising an, wodurch die nahtlose Erzeugung kompositioneller Objekte und kohärenter Hintergründe ermöglicht wird, während gleichzeitig ungenaue Priors verfeinert werden können. ComposeAnything übertrifft state-of-the-art Methoden auf den Benchmarks T2I-CompBench und NSR-1K bei Prompts mit 2D/3D-räumlichen Anordnungen, hohen Objektanzahlen und surrealen Kompositionen. Menschliche Bewertungen zeigen weiterhin, dass unser Modell hochwertige Bilder mit Kompositionen erzeugt, die den Text treu widerspiegeln.
In diesem Artikel stellen wir Online Multimodal Conversational Response Generation (OMCRG) vor, eine neuartige Aufgabe, die darauf abzielt, synchronisierte verbale und nonverbale Rückmeldungen des Zuhörers online zu generieren, basierend auf dem multimodalen Input des Sprechers. OMCRG spiegelt natürliche dyadische Interaktionen wider und stellt neue Herausforderungen bei der Synchronisation zwischen den generierten Audio- und Gesichtsreaktionen des Zuhörers dar. Um diese Herausforderungen zu bewältigen, führen wir innovativ Text als intermediäre Modalität ein, um die Audio- und Gesichtsreaktionen zu verbinden. Wir schlagen daher OmniResponse vor, ein Multimodales Großes Sprachmodell (MLLM), das autoregressiv hochwertige multimodale Zuhörerreaktionen generiert. OmniResponse nutzt ein vortrainiertes LLM, das durch zwei neuartige Komponenten erweitert wird: Chrono-Text, das generierte Texttokens zeitlich verankert, und TempoVoice, ein kontrollierbares Online-TTS-Modul, das Sprache synchron zu Gesichtsreaktionen erzeugt. Um die weitere OMCRG-Forschung zu unterstützen, präsentieren wir ResponseNet, einen neuen Datensatz, der 696 hochwertige dyadische Interaktionen mit synchronisierten Split-Screen-Videos, Mehrkanal-Audio, Transkripten und Gesichtsverhaltensannotationen umfasst. Umfassende Evaluierungen auf ResponseNet zeigen, dass OmniResponse Baseline-Modelle in Bezug auf semantischen Sprachinhalt, audiovisuelle Synchronisation und Generierungsqualität deutlich übertrifft.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge bei komplexen Denkaufgaben erzielt, aber ihre Inferenz bleibt rechnerisch ineffizient. Wir beobachten einen häufigen Fehlermodus in vielen verbreiteten LLMs, das sogenannte „Overthinking“, bei dem Modelle ausführliche und tangentiale Denkspuren selbst für einfache Anfragen generieren. Neuere Arbeiten haben versucht, dies durch die Durchsetzung fester Token-Budgets zu mildern, was jedoch insbesondere bei schwierigeren Problemen zu „Underthinking“ führen kann. Durch empirische Analysen identifizieren wir, dass diese Ineffizienz oft auf unklare Problemlösungsstrategien zurückzuführen ist. Um dies zu formalisieren, entwickeln wir ein theoretisches Modell, BBAM (Bayesian Budget Allocation Model), das Denken als eine Folge von Teilfragen mit unterschiedlicher Unsicherheit modelliert, und führen die E^3-Metrik ein, um den Kompromiss zwischen Korrektheit und Recheneffizienz zu erfassen. Basierend auf den theoretischen Ergebnissen von BBAM schlagen wir Plan-and-Budget vor, ein modellunabhängiges, testzeitliches Framework, das komplexe Anfragen in Teilfragen zerlegt und Token-Budgets basierend auf geschätzter Komplexität mittels adaptiver Planung zuweist. Plan-and-Budget verbessert die Denkeffizienz über eine Reihe von Aufgaben und Modellen hinweg und erzielt bis zu +70 % Genauigkeitssteigerungen, -39 % Token-Reduktion und +187,5 % Verbesserung in E^3. Bemerkenswerterweise hebt es ein kleineres Modell (DS-Qwen-32B) auf die Effizienz eines größeren Modells (DS-LLaMA-70B) an – was die Fähigkeit von Plan-and-Budget demonstriert, Leistungslücken ohne erneutes Training zu schließen. Unser Code ist verfügbar unter anonymous.4open.science/r/P-and-B-6513/.
Mehrere Studien haben die Mechanismen großer Sprachmodelle (LLMs) bei Codierungsaufgaben untersucht, doch die meisten konzentrierten sich auf Programmiersprachen (PLs) in einem monolingualen Kontext. In diesem Artikel untersuchen wir die Beziehung zwischen mehreren PLs und Englisch im Konzeptraum von LLMs. Wir führen eine Few-Shot-Übersetzungsaufgabe für 21 PL-Paare mit zwei Llama-basierten Modellen durch. Durch das Dekodieren der Embeddings der Zwischenschichten während dieser Aufgabe beobachten wir, dass der Konzeptraum näher an Englisch (einschließlich PL-Schlüsselwörtern) liegt und in der zweiten Hälfte der Zwischenschichten hohe Wahrscheinlichkeiten für englische Tokens zuweist. Wir analysieren die Neuronaktivierungen für 11 PLs und Englisch und stellen fest, dass sprachspezifische Neuronen hauptsächlich in den unteren Schichten konzentriert sind, während solche, die exklusiv für jede PL sind, tendenziell in den oberen Schichten auftreten. Für PLs, die stark mit mehreren anderen PLs ausgerichtet sind, ist die Identifizierung sprachspezifischer Neuronen nicht möglich. Diese PLs haben tendenziell auch einen größeren Schlüsselwortschatz als andere PLs und sind unabhängig von der Eingabe-/Ausgabe-PL in der Übersetzungsaufgabe näher am Konzeptraum des Modells. Unsere Erkenntnisse bieten Einblicke, wie LLMs PLs intern repräsentieren, und enthüllen strukturelle Muster im Konzeptraum des Modells. Der Code ist verfügbar unter https://github.com/cisnlp/code-specific-neurons.
Wir stellen SealQA vor, einen neuen Benchmark zur Bewertung von Such-verstärkten Sprachmodellen bei faktenbasierten Fragen, bei denen Websuchen widersprüchliche, verrauschte oder unbrauchbare Ergebnisse liefern. SealQA gibt es in drei Varianten: (1) Seal-0 (Hauptversion) und (2) Seal-Hard, die die faktische Genauigkeit und die Fähigkeiten zum logischen Schlussfolgern bewerten, wobei Seal-0 sich auf die schwierigsten Fragen konzentriert, bei denen Chat-Modelle (z.B. GPT-4.1) typischerweise eine nahezu null Genauigkeit erreichen; und (3) LongSeal, das SealQA erweitert, um langfristige, mehrdokumentbasierte Schlussfolgerungen in „Nadel-im-Heuhaufen“-Szenarien zu testen. Unsere Auswertung zeigt kritische Grenzen aktueller Modelle auf: Selbst führende LLMs schneiden bei allen SealQA-Varianten schlecht ab. Bei Seal-0 erreichen führende agentenbasierte Modelle, die mit Werkzeugen wie o3 und o4-mini ausgestattet sind, lediglich 17,1 % bzw. 6,3 % Genauigkeit bei ihren besten Bemühungen zum logischen Schlussfolgern. Wir stellen fest, dass fortschrittliche Schlussfolgerungsmodelle wie DeepSeek-R1-671B und o3-mini stark anfällig für verrauschte Suchergebnisse sind. Bemerkenswerterweise führt eine Erhöhung der Rechenleistung zur Testzeit bei o3-mini, o4-mini und o3 nicht zu zuverlässigen Verbesserungen, wobei die Leistung oft frühzeitig stagniert oder sogar abnimmt. Zudem sind neuere Modelle zwar weniger von dem „lost-in-the-middle“-Problem betroffen, scheitern jedoch immer noch daran, in LongSeal relevante Dokumente zuverlässig zu identifizieren, wenn sie mit zahlreichen Ablenkungen konfrontiert werden. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir SealQA unter huggingface.co/datasets/vtllms/sealqa.
Große Sprachmodelle (LLMs) wurden in letzter Zeit für Prognoseaufgaben eingesetzt, wobei einige Arbeiten behaupten, dass diese Systeme die menschliche Leistung erreichen oder übertreffen. In diesem Papier argumentieren wir, dass wir als Gemeinschaft vorsichtig mit solchen Schlussfolgerungen umgehen sollten, da die Bewertung von LLM-Prognosesystemen einzigartige Herausforderungen darstellt. Wir identifizieren zwei breite Kategorien von Problemen: (1) Schwierigkeiten, den Evaluationsergebnissen zu vertrauen, aufgrund vieler Formen von zeitlicher Datenlecks, und (2) Schwierigkeiten, von der Evaluationsleistung auf reale Prognosen zu schließen. Durch systematische Analysen und konkrete Beispiele aus früheren Arbeiten zeigen wir, wie Evaluationsfehler Bedenken hinsichtlich aktueller und zukünftiger Leistungsaussagen aufwerfen können. Wir argumentieren, dass strengere Evaluationsmethoden erforderlich sind, um die Prognosefähigkeiten von LLMs sicher bewerten zu können.
Die Distribution Matching Distillation (DMD) wurde erfolgreich auf Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion (SD) 1.5 angewendet. Allerdings zeigt die Standardversion von DMD Konvergenzschwierigkeiten bei großskaligen, flussbasierten Text-zu-Bild-Modellen wie SD 3.5 und FLUX. In diesem Artikel analysieren wir zunächst die Probleme, die bei der Anwendung von Standard-DMD auf großskalige Modelle auftreten. Um die Skalierbarkeitsherausforderung zu bewältigen, schlagen wir dann die implizite Verteilungsanpassung (Implicit Distribution Alignment, IDA) vor, um den Abstand zwischen dem Generator und der gefälschten Verteilung zu regulieren. Darüber hinaus schlagen wir die intra-segmentale Führung (Intra-Segment Guidance, ISG) vor, um die Zeitschritt-Wichtigkeitsverteilung des Lehrermodells neu zu positionieren. Mit IDA allein konvergiert DMD für SD 3.5; durch den Einsatz von IDA und ISG konvergiert DMD für SD 3.5 und FLUX.1 dev. Zusammen mit anderen Verbesserungen wie hochskalierten Diskriminatormodellen erreicht unser finales Modell, SenseFlow genannt, eine überlegene Leistung bei der Destillation sowohl für diffusionsbasierte Text-zu-Bild-Modelle wie SDXL als auch für flussbasierte Modelle wie SD 3.5 Large und FLUX. Der Quellcode wird unter https://github.com/XingtongGe/SenseFlow verfügbar sein.
Neurale Audiocodecs haben bedeutende Fortschritte bei der effizienten Abbildung von rohen Audiowellenformen in diskrete Token-Repräsentationen gemacht, die für zeitgenössische Audio-Generierungsmodelle grundlegend sind. Die meisten bestehenden Codecs sind jedoch hauptsächlich auf Rekonstruktionsqualität optimiert, oft auf Kosten der Modellierbarkeit der kodierten Token. Angetrieben von der Notwendigkeit, diesen Engpass zu überwinden, stellen wir MagiCodec vor, einen neuartigen, einlagigen, streamingfähigen Transformer-basierten Audiocodec. MagiCodec wurde mit einem mehrstufigen Trainingspipeline entwickelt, die die Injektion von Gaußschem Rauschen und latente Regularisierung integriert, um gezielt die semantische Ausdruckskraft der generierten Codes zu verbessern, während gleichzeitig eine hohe Rekonstruktionstreue erhalten bleibt. Wir analysieren den Effekt der Rauschinjektion im Frequenzbereich und demonstrieren deren Wirksamkeit bei der Dämpfung von Hochfrequenzkomponenten und der Förderung einer robusten Tokenisierung. Umfangreiche experimentelle Auswertungen zeigen, dass MagiCodec sowohl in der Rekonstruktionsqualität als auch bei nachgelagerten Aufgaben state-of-the-art Codecs übertrifft. Bemerkenswerterweise weisen die von MagiCodec erzeugten Token Zipf-ähnliche Verteilungen auf, wie sie in natürlichen Sprachen beobachtet werden, wodurch die Kompatibilität mit sprachmodellbasierten Generierungsarchitekturen verbessert wird. Der Code und die vortrainierten Modelle sind unter https://github.com/Ereboas/MagiCodec verfügbar.
Retrieval-Augmented Language Models (RALMs) repräsentieren ein klassisches Paradigma, bei dem Modelle ihre generativen Fähigkeiten durch die Nutzung externen Wissens verbessern, das über ein spezialisiertes Modul abgerufen wird. Jüngste Fortschritte in der Agententechnik ermöglichen es Large Language Models (LLMs), Werkzeuge für das Retrieval, die Planung und das logische Denken autonom zu nutzen. Obwohl bestehende, auf Training basierende Methoden vielversprechend sind, werden ihre agentischen Fähigkeiten durch die inhärenten Eigenschaften der aufgabenspezifischen Daten, die während des Trainings verwendet werden, eingeschränkt. Um die universelle Suchfähigkeit von Agenten weiter zu verbessern, schlagen wir ein neuartiges Pre-Training-Framework namens MaskSearch vor. In der Pre-Training-Phase führen wir die Retrieval Augmented Mask Prediction (RAMP)-Aufgabe ein, bei der das Modell lernt, Suchwerkzeuge zu nutzen, um maskierte Abschnitte in einer großen Menge von Pre-Training-Daten zu füllen, wodurch es universelle Retrieval- und Denkfähigkeiten für LLMs erwirbt. Anschließend wird das Modell auf Downstream-Aufgaben trainiert, um weitere Verbesserungen zu erzielen. Wir wenden sowohl Supervised Fine-Tuning (SFT) als auch Reinforcement Learning (RL) für das Training an. Für SFT kombinieren wir agentenbasierte und distilationsbasierte Methoden, um Trainingsdaten zu generieren, beginnend mit einem Multi-Agenten-System, das aus einem Planer, einem Umschreiber, einem Beobachter besteht, gefolgt von einem sich selbst weiterentwickelnden Lehrermodell. Für RL verwenden wir DAPO als Trainingsframework und setzen ein hybrides Belohnungssystem ein, das aus Antwortbelohnungen und Formatbelohnungen besteht. Zusätzlich führen wir einen Curriculum-Learning-Ansatz ein, der es dem Modell ermöglicht, schrittweise von einfacheren zu anspruchsvolleren Instanzen basierend auf der Anzahl der maskierten Abschnitte zu lernen. Wir evaluieren die Effektivität unseres Frameworks im Kontext der Open-Domain-Multi-Hop-Fragebeantwortung. Durch umfangreiche Experimente zeigen wir, dass MaskSearch die Leistung von LLM-basierten Suchagenten sowohl bei in-domain als auch bei out-of-domain Downstream-Aufgaben signifikant verbessert.
Da Large Language Models (LLMs) zunehmend in das menschliche Leben integriert werden und Entscheidungsprozesse immer stärker beeinflussen, ist es von entscheidender Bedeutung zu bewerten, ob und in welchem Ausmaß sie subjektive Präferenzen, Meinungen und Überzeugungen aufweisen. Diese Tendenzen können auf Verzerrungen innerhalb der Modelle zurückzuführen sein, die ihr Verhalten prägen, die Ratschläge und Empfehlungen, die sie Nutzern bieten, beeinflussen und möglicherweise bestimmte Standpunkte verstärken. Dieses Papier stellt die Preference, Opinion, and Belief Survey (POBs) vor, einen Benchmark, der entwickelt wurde, um die subjektiven Neigungen von LLMs in gesellschaftlichen, kulturellen, ethischen und persönlichen Bereichen zu bewerten. Wir haben unseren Benchmark angewendet, um führende Open- und Closed-Source-LLMs zu evaluieren und dabei gewünschte Eigenschaften wie Zuverlässigkeit, Neutralität und Konsistenz gemessen. Zusätzlich haben wir den Effekt einer Erhöhung der Rechenleistung zur Testzeit, durch Mechanismen des logischen Denkens und der Selbstreflexion, auf diese Metriken untersucht. Obwohl diese Mechanismen bei anderen Aufgaben effektiv sind, zeigen unsere Ergebnisse, dass sie in unserem Bereich nur begrenzte Verbesserungen bieten. Darüber hinaus zeigen wir, dass neuere Modellversionen weniger konsistent und stärker auf bestimmte Standpunkte ausgerichtet sind, was einen blinden Fleck und einen besorgniserregenden Trend aufdeckt. POBS: https://ibm.github.io/POBS
Wir stellen Frankentexte vor, eine neue Art von langen Erzählungen, die von LLMs unter der extremen Einschränkung erzeugt werden, dass die meisten Tokens (z. B. 90%) wortwörtlich aus menschlichen Schriften kopiert werden müssen. Diese Aufgabe stellt eine anspruchsvolle Prüfung der kontrollierbaren Generierung dar, da die Modelle einen Schreibanlass erfüllen, disparate Textfragmente integrieren und dennoch eine kohärente Erzählung produzieren müssen. Um Frankentexte zu generieren, weisen wir das Modell an, einen Entwurf durch die Auswahl und Kombination von menschlich geschriebenen Passagen zu erstellen und diesen Entwurf dann iterativ zu überarbeiten, während ein benutzerdefiniertes Kopierverhältnis beibehalten wird. Wir bewerten die resultierenden Frankentexte entlang drei Achsen: Schreibqualität, Befolgung der Anweisungen und Erkennbarkeit. Gemini-2.5-Pro schneidet bei dieser Aufgabe überraschend gut ab: 81 % seiner Frankentexte sind kohärent und 100 % relevant für den Anlass. Bemerkenswerterweise werden bis zu 59 % dieser Ausgaben von Detektoren wie Pangram fälschlicherweise als menschlich geschrieben eingestuft, was die Grenzen von KI-Textdetektoren aufzeigt. Menschliche Annotatoren können Frankentexte manchmal anhand ihrer abrupten Tonwechsel und inkonsistenten Grammatik zwischen den Segmenten identifizieren, insbesondere bei längeren Generierungen. Über die Präsentation einer herausfordernden Generierungsaufgabe hinaus laden Frankentexte zur Diskussion über den Aufbau effektiver Detektoren für diese neue Grauzone der Autorschaft ein, bieten Trainingsdaten für die Erkennung gemischter Autorschaft und dienen als Sandkasten für die Untersuchung von Mensch-KI-Co-Schreibprozessen.
Vision-Language-Modelle (VLMs), die mit allgemeinen menschlichen Zielen wie Schadlosigkeit und Halluzinationsfreiheit ausgerichtet sind, haben sich als wertvolle Assistenten bei der Bewältigung visueller Aufgaben erwiesen. Menschen mit unterschiedlichen Hintergründen haben jedoch selbst in derselben Situation unterschiedliche Wahrnehmungen. Folglich können sie personalisierte Erwartungen an VLM-Assistenten haben. Dies unterstreicht die dringende Notwendigkeit, VLM-Assistenten mit personalisierter situativer Wahrnehmung für die reale Unterstützung auszurichten. Um dieses Problem zu untersuchen, vereinfachen wir es zunächst, indem wir Individuen anhand des soziologischen Konzepts der Rollenmenge (Role-Set) charakterisieren. Anschließend schlagen wir vor, die Handlungen der Individuen zu bewerten, um zu prüfen, ob die personalisierte Ausrichtung erreicht wurde. Darüber hinaus erstellen wir einen Benchmark namens PCogAlignBench, der 18.000 Instanzen und 20 Personen mit unterschiedlichen Rollenmengen umfasst. Schließlich präsentieren wir ein Framework namens PCogAlign, das ein wahrnehmungsbewusstes und handlungsbasiertes Belohnungsmodell für die personalisierte Ausrichtung konstruiert. Experimentelle Ergebnisse und menschliche Bewertungen demonstrieren die Zuverlässigkeit des PCogAlignBench und die Effektivität unseres vorgeschlagenen PCogAlign. Wir werden den erstellten Benchmark und den Code unter https://github.com/NLPGM/PCogAlign open-source zur Verfügung stellen.
Aktuelle Studien haben gezeigt, dass das überwachte Feinabstimmen von LLMs auf einer kleinen Anzahl hochwertiger Datensätze starke Fähigkeiten im logischen Denken erzeugen kann. Allerdings ist das vollständige Feinabstimmen (Full FT), obwohl leistungsstark, rechenintensiv und anfällig für Überanpassung und katastrophales Vergessen, insbesondere wenn die Daten begrenzt sind. Das spärliche Feinabstimmen, das zuvor bemerkenswerte Erfolge durch die Aktualisierung nur einer kleinen Teilmenge der Modellparameter erzielte, bietet einen vielversprechenden Kompromiss zwischen Effizienz und Effektivität. Dennoch hat es im Zeitalter der LLMs aufgrund der Schwierigkeit, die wirklich entscheidenden Parameter für das logische Denken zu identifizieren, an Boden verloren. In dieser Arbeit stellen wir fest, dass Gewichte mit der größten Größe nach einer Niedrigrang-Approximation kritische Gewichte für das Feinabstimmen sind, die wir als Hauptgewichte bezeichnen. Überraschenderweise ist das auf der Größe basierende spärliche Feinabstimmen als Baseline beim Feinabstimmen von LLMs zwar schlecht, wird jedoch nach der Rangreduktion sehr effektiv. Diese Erkenntnisse motivieren unsere Methode: Niedrigrang-informiertes spärliches Feinabstimmen (LIFT). LIFT aktualisiert nur die obersten 5 % der Hauptgewichte während des Trainings und erzielt durchweg bessere Leistungen bei Aufgaben zum logischen Denken als Full FT, während es die Speichereffizienz auf dem Niveau beliebter parameter-effizienter Feinabstimmungsmethoden beibehält. Neben starker Leistung in Zielbereichen wie arithmetischem Denken behält LIFT im Vergleich zu Full FT und LoRA auch bis zu 20 % mehr Wissen aus dem Quellbereich. Unser Code ist verfügbar unter: https://github.com/zihanghliu/LIFT.
Das Verständnis städtischer sozioökonomischer Bedingungen durch visuelle Daten ist eine herausfordernde, aber wesentliche Aufgabe für nachhaltige Stadtentwicklung und politische Planung. In dieser Arbeit stellen wir CityLens vor, einen umfassenden Benchmark, der entwickelt wurde, um die Fähigkeiten großer Sprach-Bild-Modelle (LLVMs) zur Vorhersage sozioökonomischer Indikatoren aus Satelliten- und Street-View-Bildern zu bewerten. Wir erstellen einen multimodalen Datensatz, der insgesamt 17 global verteilte Städte abdeckt und sechs Schlüsselbereiche umfasst: Wirtschaft, Bildung, Kriminalität, Verkehr, Gesundheit und Umwelt, was die vielschichtige Natur des städtischen Lebens widerspiegelt. Basierend auf diesem Datensatz definieren wir 11 Vorhersageaufgaben und verwenden drei Bewertungsparadigmen: Direkte Metrikvorhersage, Normalisierte Metrikschätzung und Merkmalsbasierte Regression. Wir benchmarken 17 state-of-the-art LLVMs in diesen Aufgaben. Unsere Ergebnisse zeigen, dass LLVMs zwar vielversprechende Wahrnehmungs- und Schlussfolgerungsfähigkeiten aufweisen, aber dennoch Einschränkungen bei der Vorhersage städtischer sozioökonomischer Indikatoren haben. CityLens bietet einen einheitlichen Rahmen zur Diagnose dieser Einschränkungen und zur zukünftigen Nutzung von LLVMs zum Verständnis und zur Vorhersage städtischer sozioökonomischer Muster. Unsere Codes und Datensätze sind unter https://github.com/tsinghua-fib-lab/CityLens open-source verfügbar.
Diese Arbeit untersucht eine kritische Designentscheidung in der Praxis des massiv mehrsprachigen kontinuierlichen Vortrainierens – die Einbeziehung von parallelen Daten. Konkret untersuchen wir die Auswirkungen von bilingualen Übersetzungsdaten für die massiv mehrsprachige Sprachadaption der Llama3-Modellfamilie auf 500 Sprachen. Zu diesem Zweck erstellen wir das MaLA-bilinguale Übersetzungskorpus, das Daten aus mehr als 2.500 Sprachpaaren enthält. Anschließend entwickeln wir die EMMA-500 Llama 3-Suite, bestehend aus vier massiv mehrsprachigen Modellen – kontinuierlich vortrainiert aus der Llama3-Basismodellfamilie mit umfangreichen Datenmischungen von bis zu 671B Tokens – und untersuchen die Auswirkungen des kontinuierlichen Vortrainierens mit oder ohne bilinguale Übersetzungsdaten. Eine umfassende Bewertung über 7 Aufgaben und 12 Benchmarks zeigt, dass bilinguale Daten tendenziell den Sprachtransfer und die Leistung verbessern, insbesondere für ressourcenarme Sprachen. Wir stellen das MaLA-Korpus, die EMMA-500 Llama 3-Suite-Artefakte, den Code und die Modellgenerierungen als Open Source zur Verfügung.
Die Dekodierung kontinuierlicher Sprache aus neuronalen Signalen bleibt eine bedeutende Herausforderung an der Schnittstelle von Neurowissenschaften und künstlicher Intelligenz. Wir stellen Neuro2Semantic vor, ein neuartiges Framework, das den semantischen Inhalt wahrgenommener Sprache aus intrakraniellen EEG-Aufnahmen (iEEG) rekonstruiert. Unser Ansatz besteht aus zwei Phasen: Zuerst richtet ein LSTM-basierter Adapter neuronale Signale an vortrainierten Text-Embeddings aus; anschließend generiert ein Korrekturmodul kontinuierlichen, natürlichen Text direkt aus diesen ausgerichteten Embeddings. Diese flexible Methode überwindet die Einschränkungen bisheriger Dekodierungsansätze und ermöglicht eine ungehinderte Textgenerierung. Neuro2Semantic erzielt eine starke Leistung mit nur 30 Minuten neuronaler Daten und übertrifft dabei einen aktuellen State-of-the-Art-Ansatz in Umgebungen mit geringen Datenmengen. Diese Ergebnisse unterstreichen das Potenzial für praktische Anwendungen in Brain-Computer-Interfaces und neuronalen Dekodierungstechnologien.
Binaurales Rendering zielt darauf ab, binaurales Audio zu synthetisieren, das das natürliche Hören auf der Grundlage eines Mono-Audios sowie der Positionen des Sprechers und des Zuhörers nachahmt. Obwohl viele Methoden zur Lösung dieses Problems vorgeschlagen wurden, kämpfen sie mit der Renderqualität und der streamfähigen Inferenz. Die Synthese von hochwertigem binauralem Audio, das nicht von realen Aufnahmen zu unterscheiden ist, erfordert eine präzise Modellierung von binauralen Hinweisen, Raumhall und Umgebungsgeräuschen. Darüber hinaus erfordern reale Anwendungen eine Streaming-Inferenz. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Flow Matching basierendes Streaming-Binaural-Sprachsynthese-Framework namens BinauralFlow vor. Wir betrachten binaurales Rendering als ein Generierungsproblem und nicht als ein Regressionsproblem und entwerfen ein bedingtes Flow-Matching-Modell, um hochwertiges Audio zu rendern. Darüber hinaus entwerfen wir eine kausale U-Net-Architektur, die den aktuellen Audioframe ausschließlich auf der Grundlage vergangener Informationen schätzt, um generative Modelle für die Streaming-Inferenz anzupassen. Schließlich führen wir eine kontinuierliche Inferenzpipeline ein, die Streaming-STFT/ISTFT-Operationen, einen Pufferbank, einen Midpoint-Solver und einen Early-Skip-Zeitplan integriert, um die Renderkontinuität und -geschwindigkeit zu verbessern. Quantitative und qualitative Auswertungen demonstrieren die Überlegenheit unserer Methode gegenüber SOTA-Ansätzen. Eine Wahrnehmungsstudie zeigt weiterhin, dass unser Modell nahezu nicht von realen Aufnahmen zu unterscheiden ist, mit einer Verwechslungsrate von 42 %.
Trotz Fortschritten in der Argumentation und Planung von R1-ähnlichen Modellen haben Large Language Models (LLMs) weiterhin Schwierigkeiten mit Aufgaben, die präzise Berechnungen, symbolische Manipulation, Optimierung und algorithmisches Denken erfordern, bei denen textbasierte Argumentation die Strenge der Code-Ausführung vermissen lässt. Eine zentrale Herausforderung besteht darin, LLMs in die Lage zu versetzen, zu entscheiden, wann sie textbasierte Argumentation gegenüber Code-Generierung verwenden sollen. Während OpenAI Modelle trainiert, bei Bedarf einen Code-Interpreter aufzurufen, fehlt in der öffentlichen Forschung eine Anleitung, wie vortrainierte LLMs effektiv Code nutzen und über diverse Aufgaben hinweg verallgemeinern können. Wir präsentieren R1-Code-Interpreter, eine Erweiterung eines textbasierten LLMs, das durch mehrstufiges überwachtes Fein-Tuning (SFT) und Reinforcement Learning (RL) trainiert wurde, um während der schrittweisen Argumentation autonom mehrere Code-Abfragen zu generieren. Wir haben 144 Argumentations- und Planungsaufgaben (107 für das Training, 37 für Tests) kuratiert, jede mit über 200 verschiedenen Fragen. Wir feintunen Qwen-2.5-Modelle (3B/7B/14B) mit verschiedenen SFT- und RL-Strategien, untersuchen verschiedene Antwortformate, Argumentations- gegenüber Nicht-Argumentationsmodellen, Kalt- gegenüber Warmstarts, GRPO gegenüber PPO sowie maskierte gegenüber unmaskierten Code-Ausgaben. Im Gegensatz zu früheren RL-Arbeiten in engen Domänen stellen wir fest, dass das Training des Code-Interpreters aufgrund der hohen Aufgabenvielfalt und der teuren Code-Ausführung deutlich schwieriger ist, was die kritische Rolle der SFT-Phase unterstreicht. Unser finales Modell, R1-CI-14B, verbessert die durchschnittliche Genauigkeit bei den 37 Testaufgaben von 44,0\% auf 64,1\%, übertrifft GPT-4o (textbasiert: 58,6\%) und nähert sich GPT-4o mit Code-Interpreter (70,9\%) an, wobei das emergente Selbstüberprüfungsverhalten durch Code-Generierung eine Rolle spielt. Datensätze, Codes und Modelle sind verfügbar unter https://github.com/yongchao98/R1-Code-Interpreter und https://huggingface.co/yongchao98.
Multimodale Large Language Models (MLLMs) zeigen gute Leistungen bei Aufgaben wie der visuellen Fragebeantwortung, doch bleibt unklar, ob ihr Schlussfolgern stärker auf gespeichertem Weltwissen oder auf den visuellen Informationen im Eingabebild basiert. Um dies zu untersuchen, führen wir Visual CounterFact ein, einen neuen Datensatz visuell realistischer Kontrafaktualitäten, die Weltwissen-Prioritäten (z. B. rote Erdbeere) in direkten Konflikt mit visuellen Eingaben (z. B. blaue Erdbeere) setzen. Mithilfe von Visual CounterFact zeigen wir, dass die Modellvorhersagen zunächst gespeicherte Prioritäten widerspiegeln, sich jedoch in mittleren bis späten Schichten hin zu visuellen Beweisen verschieben. Diese Dynamik offenbart einen Wettstreit zwischen den beiden Modalitäten, wobei die visuelle Eingabe letztlich die Prioritäten während der Auswertung übertrumpft. Um dieses Verhalten zu steuern, schlagen wir Pixels Versus Priors (PvP) Steering Vectors vor, einen Mechanismus zur Kontrolle der Modellausgaben hin zu entweder Weltwissen oder visuellen Eingaben durch Eingriffe auf Aktivierungsebene. Im Durchschnitt gelingt es PvP, 92,5 % der Farb- und 74,6 % der Größenvorhersagen von Prioritäten zu Kontrafaktualitäten zu verschieben. Zusammen bieten diese Erkenntnisse neue Werkzeuge zur Interpretation und Steuerung faktischen Verhaltens in multimodalen Modellen.
Die Beschaffung von groß angelegten emotionalen Sprachdaten mit starker Konsistenz bleibt eine Herausforderung für die Sprachsynthese. Dieses Papier stellt MIKU-PAL vor, eine vollständig automatisierte multimodale Pipeline zur Extraktion von hochkonsistenten emotionalen Sprachdaten aus unmarkierten Videodaten. Durch die Nutzung von Gesichtserkennungs- und Tracking-Algorithmen haben wir ein automatisches Emotionsanalysesystem entwickelt, das ein multimodales großes Sprachmodell (MLLM) verwendet. Unsere Ergebnisse zeigen, dass MIKU-PAL eine menschenähnliche Genauigkeit (68,5 % auf MELD) und eine überlegene Konsistenz (0,93 Fleiss-Kappa-Wert) erreichen kann, während es deutlich kostengünstiger und schneller ist als menschliche Annotationen. Mit den hochwertigen, flexiblen und konsistenten Annotationen von MIKU-PAL können wir fein abgestufte Sprachkategorien von bis zu 26 Typen annotieren, die von menschlichen Annotatoren mit einer Rationalitätsbewertung von 83 % validiert wurden. Basierend auf unserem vorgeschlagenen System haben wir weiterhin einen fein abgestuften emotionalen Sprachdatensatz MIKU-EmoBench (131,2 Stunden) als neuen Benchmark für emotionale Text-zu-Sprache- und visuelle Sprachklonung veröffentlicht.
Diese Arbeit untersucht die Source-Free Domain Adaptation (SFDA), bei der sich ein Modell an eine Ziel-Domain anpasst, ohne Zugriff auf die Quelldaten zu haben. Eine neue Augmentations-Technik, Shuffle PatchMix (SPM), und eine neuartige Reweighting-Strategie werden eingeführt, um die Leistung zu verbessern. SPM mischt und kombiniert Bildpatches, um vielfältige und herausfordernde Augmentationen zu erzeugen, während die Reweighting-Strategie zuverlässige Pseudolabels priorisiert, um Label-Rauschen zu reduzieren. Diese Techniken sind besonders effektiv bei kleineren Datensätzen wie PACS, wo Überanpassung und Pseudolabel-Rauschen größere Risiken darstellen. State-of-the-Art-Ergebnisse werden auf drei wichtigen Benchmarks erzielt: PACS, VisDA-C und DomainNet-126. Bemerkenswerterweise werden auf PACS Verbesserungen von 7,3 % (79,4 % auf 86,7 %) und 7,2 % in Einzelziel- und Multi-Ziel-Szenarien beobachtet, während auf DomainNet-126 und VisDA-C Gewinne von 2,8 % bzw. 0,7 % erzielt werden. Diese Kombination aus fortschrittlicher Augmentation und robustem Pseudolabel-Reweighting setzt einen neuen Maßstab für SFDA. Der Code ist verfügbar unter: https://github.com/PrasannaPulakurthi/SPM.
Die effiziente Kompilierung von Quantenoperationen bleibt ein wesentlicher Engpass bei der Skalierung des Quantencomputings. Die heutigen State-of-the-Art-Methoden erreichen geringe Kompilierungsfehler durch die Kombination von Suchalgorithmen mit gradientenbasierter Parameteroptimierung, verursachen jedoch lange Laufzeiten und erfordern mehrere Aufrufe von Quantenhardware oder teure klassische Simulationen, was ihre Skalierbarkeit erschwert. Kürzlich haben sich maschinelle Lernmodelle als Alternative etabliert, obwohl sie derzeit auf diskrete Gatter-Sets beschränkt sind. Hier stellen wir ein multimodales Denoising-Diffusionsmodell vor, das gleichzeitig die Struktur eines Schaltkreises und seine kontinuierlichen Parameter zur Kompilierung einer Zielunitären Matrix generiert. Es nutzt zwei unabhängige Diffusionsprozesse, einen für die diskrete Gatterauswahl und einen für die Parameterprognose. Wir evaluieren das Modell in verschiedenen Experimenten und analysieren die Genauigkeit der Methode bei unterschiedlichen Qubit-Anzahlen, Schaltkreistiefen und Anteilen parametrisierter Gatter. Schließlich nutzen wir die schnelle Schaltkreiserzeugung, um große Datensätze von Schaltkreisen für spezifische Operationen zu erstellen und verwenden diese, um wertvolle Heuristiken zu extrahieren, die uns neue Erkenntnisse in der Synthese von Quantenschaltkreisen liefern können.