papers.description
Führt die fortgesetzte Skalierung großer Sprachmodelle (LLMs) zu abnehmenden Erträgen? Der reale Wert ergibt sich oft aus der Länge der Aufgabe, die ein Agent abschließen kann. Wir beginnen diese Arbeit mit der Beobachtung der einfachen, aber kontraintuitiven Tatsache, dass marginale Verbesserungen in der Einzelschrittgenauigkeit zu exponentiellen Steigerungen in der Länge der Aufgabe führen können, die ein Modell erfolgreich abschließen kann. Dann argumentieren wir, dass die Fehler von LLMs, wenn einfache Aufgaben verlängert werden, eher auf Fehler in der Ausführung als auf eine Unfähigkeit zum logischen Denken zurückzuführen sind. Wir schlagen vor, die Ausführungsfähigkeit zu isolieren, indem explizit das Wissen und der Plan bereitgestellt werden, die zur Lösung einer langfristigen Aufgabe benötigt werden. Wir stellen fest, dass größere Modelle deutlich mehr Schritte korrekt ausführen können, selbst wenn kleinere Modelle eine 100\%ige Einzelschrittgenauigkeit aufweisen. Wir beobachten, dass die Genauigkeit pro Schritt der Modelle abnimmt, wenn die Anzahl der Schritte zunimmt. Dies liegt nicht nur an den Einschränkungen des langen Kontexts – merkwürdigerweise beobachten wir einen Selbstkonditionierungseffekt – Modelle werden eher Fehler machen, wenn der Kontext ihre Fehler aus vorherigen Schritten enthält. Selbstkonditionierung verringert sich nicht allein durch die Skalierung der Modellgröße. Im Gegensatz dazu zeigen aktuelle Denkmodelle keine Selbstkonditionierung und können auch viel längere Aufgaben in einem einzigen Schritt ausführen. Wir schließen mit einem Benchmarking von Spitzen-Denkmodelle hinsichtlich der Länge der Aufgabe, die sie in einem einzigen Schritt ausführen können. Insgesamt hoffen wir, durch den Fokus auf die Ausführungsfähigkeit, Debatten darüber zu versöhnen, wie LLMs komplexe Denkprobleme lösen können, aber bei einfachen Aufgaben scheitern, wenn diese verlängert werden, und die enormen Vorteile der Skalierung der Modellgröße und der sequentiellen Testzeitberechnung für langfristige Aufgaben hervorzuheben.
Die Erzeugung von Bildern mit beliebiger Auflösung bietet ein konsistentes visuelles Erlebnis über verschiedene Geräte hinweg und findet umfangreiche Anwendungen für Produzenten und Konsumenten. Aktuelle Diffusionsmodelle steigern den Rechenaufwand quadratisch mit der Auflösung, was zu Verzögerungen von über 100 Sekunden bei der Generierung von 4K-Bildern führt. Um dies zu lösen, untersuchen wir die zweite Generation von latenten Diffusionsmodellen, bei denen das durch Diffusionsmodelle erzeugte feste Latent als Inhaltsrepräsentation betrachtet wird. Wir schlagen vor, Bilder mit beliebiger Auflösung aus einem kompakten generierten Latent mithilfe eines Ein-Schritt-Generators zu dekodieren. Daher präsentieren wir das InfGen, das den VAE-Decoder durch den neuen Generator ersetzt, um Bilder in jeder Auflösung aus einem Latent fester Größe zu erzeugen, ohne die Diffusionsmodelle neu trainieren zu müssen. Dies vereinfacht den Prozess, reduziert die Rechenkomplexität und kann auf jedes Modell angewendet werden, das denselben latenten Raum verwendet. Experimente zeigen, dass InfGen in der Lage ist, viele Modelle in die Ära der beliebig hohen Auflösung zu führen und gleichzeitig die Generierungszeit für 4K-Bilder auf unter 10 Sekunden zu verkürzen.
Die rasche Einführung autonomer KI-Agenten führt zur Entstehung einer neuen wirtschaftlichen Ebene, auf der Agenten in einem Umfang und mit einer Geschwindigkeit Transaktionen durchführen und koordinieren, die die direkte menschliche Kontrolle übersteigen. Wir schlagen die „Sandbox-Wirtschaft“ als Rahmen zur Analyse dieses entstehenden Systems vor und charakterisieren sie entlang zweier Schlüsseldimensionen: ihrer Entstehung (spontan vs. intentional) und ihres Grades der Abgrenzung von der etablierten menschlichen Wirtschaft (durchlässig vs. undurchlässig). Unser aktueller Entwicklungspfad deutet auf die spontane Entstehung einer umfangreichen und stark durchlässigen KI-Agenten-Wirtschaft hin, die uns sowohl Chancen für ein bisher unerreichtes Maß an Koordination als auch erhebliche Herausforderungen bietet, darunter systemische Wirtschaftsrisiken und verstärkte Ungleichheit. Hier diskutieren wir eine Reihe möglicher Gestaltungsentscheidungen, die zu sicher steuerbaren KI-Agenten-Märkten führen könnten. Insbesondere betrachten wir Auktionsmechanismen für eine faire Ressourcenallokation und Präferenzabstimmung, die Gestaltung von KI-„Mission-Wirtschaften“ zur Koordination bei der Erreichung kollektiver Ziele sowie die sozio-technische Infrastruktur, die erforderlich ist, um Vertrauen, Sicherheit und Rechenschaftspflicht zu gewährleisten. Damit plädieren wir für die proaktive Gestaltung steuerbarer Agenten-Märkte, um sicherzustellen, dass der bevorstehende technologische Wandel mit dem langfristigen kollektiven Wohlergehen der Menschheit in Einklang steht.
Die Erzeugung von 3D-Formen auf Teilebene ist entscheidend für nachgelagerte Anwendungen wie Mesh-Retopologie, UV-Mapping und 3D-Druck. Bisherige teilbasierte Generierungsmethoden bieten jedoch oft unzureichende Kontrollierbarkeit und leiden unter einer mangelnden semantisch sinnvollen Zerlegung. Aus diesem Grund stellen wir X-Part vor, ein kontrollierbares generatives Modell, das darauf ausgelegt ist, ein ganzheitliches 3D-Objekt in semantisch sinnvolle und strukturell kohärente Teile mit hoher geometrischer Genauigkeit zu zerlegen. X-Part nutzt Begrenzungsrahmen als Eingabeaufforderungen für die Teilgenerierung und fügt punktweise semantische Merkmale für eine sinnvolle Zerlegung ein. Darüber hinaus entwerfen wir eine bearbeitbare Pipeline für die interaktive Teilgenerierung. Umfangreiche experimentelle Ergebnisse zeigen, dass X-Part Spitzenleistungen in der teilbasierten Formgenerierung erreicht. Diese Arbeit etabliert ein neues Paradigma für die Erstellung produktionsreifer, bearbeitbarer und strukturell solider 3D-Assets. Die Codes werden für die öffentliche Forschung freigegeben.
Engagement und Motivation sind entscheidend für den Zweitspracherwerb, doch die Aufrechterhaltung des Interesses der Lernenden in pädagogischen Gesprächen bleibt eine Herausforderung. Während frühere Forschungen untersucht haben, was pädagogische Texte interessant macht, ist noch wenig über die linguistischen Merkmale bekannt, die Engagement in Gesprächen fördern. Um diese Lücke zu schließen, stellen wir IntrEx vor, den ersten großen Datensatz, der für Interessantheit und erwartete Interessantheit in Lehrer-Schüler-Interaktionen annotiert ist. Basierend auf dem Teacher-Student Chatroom Corpus (TSCC) erweitert IntrEx frühere Arbeiten durch die Einbeziehung von Sequenz-Level-Annotationen, was die Untersuchung von Engagement über isolierte Äußerungen hinaus ermöglicht, um zu erfassen, wie sich Interesse in längeren Dialogen entwickelt. Wir verwenden einen rigorosen Annotationsprozess mit über 100 Zweitsprachlern und nutzen einen vergleichsbasierten Bewertungsansatz, inspiriert von Reinforcement Learning from Human Feedback (RLHF), um die Übereinstimmung zu verbessern. Wir untersuchen, ob große Sprachmodelle (LLMs) menschliche Bewertungen von Interessantheit vorhersagen können. Wir stellen fest, dass LLMs (7B/8B Parameter), die auf Interessantheitsbewertungen feinabgestimmt sind, größere proprietäre Modelle wie GPT-4o übertreffen, was das Potenzial spezialisierter Datensätze zur Modellierung von Engagement in Bildungskontexten demonstriert. Schließlich analysieren wir, wie linguistische und kognitive Faktoren wie Konkretheit, Verständlichkeit (Lesbarkeit) und Aufnahme das Engagement in pädagogischen Dialogen beeinflussen.
Der Retrieval-Augmented Generation (RAG)-Ansatz verbessert Frage-Antwort-Systeme und Dialoggenerierungsaufgaben, indem er Information Retrieval (IR)-Technologien mit großen Sprachmodellen (LLMs) kombiniert. Diese Strategie, die Informationen aus externen Wissensdatenbanken abruft, um die Antwortfähigkeiten generativer Modelle zu stärken, hat bereits einige Erfolge erzielt. Allerdings stehen aktuelle RAG-Methoden bei der Bearbeitung von Multi-Hop-Anfragen noch vor zahlreichen Herausforderungen. Beispielsweise verlassen sich einige Ansätze zu stark auf iteratives Retrieval, was bei zusammengesetzten Anfragen zu vielen unnötigen Retrieval-Schritten führt. Zudem kann die Verwendung der ursprünglichen komplexen Anfrage für das Retrieval dazu führen, dass Inhalte, die für spezifische Teilanfragen relevant sind, nicht erfasst werden, was zu verrauschten abgerufenen Inhalten führt. Wenn dieses Rauschen nicht kontrolliert wird, kann es zu einem Problem der Rauschakkumulation kommen. Um diese Probleme zu lösen, stellen wir HANRAG vor, ein neuartiges heuristikbasiertes Framework, das darauf abzielt, Probleme unterschiedlicher Komplexität effizient zu bewältigen. Angetrieben von einem leistungsstarken Revelator, leitet HANRAG Anfragen weiter, zerlegt sie in Teilanfragen und filtert Rauschen aus den abgerufenen Dokumenten. Dies verbessert die Anpassungsfähigkeit und Rauschresistenz des Systems, wodurch es in der Lage ist, vielfältige Anfragen effektiv zu bearbeiten. Wir vergleichen das vorgeschlagene Framework mit anderen führenden Methoden der Branche über verschiedene Benchmarks hinweg. Die Ergebnisse zeigen, dass unser Framework sowohl bei Single-Hop- als auch bei Multi-Hop-Frage-Antwort-Aufgaben eine überlegene Leistung erzielt.
Mit zunehmender Komplexität von Vision-Language-Modellen (VLMs) wird ihre Fähigkeit zum logischen Denken immer stärker überwacht. Obwohl sie bei vielen Aufgaben hervorragende Leistungen erbringen, bleibt ihr Verständnis grundlegender wissenschaftlicher Prinzipien, wie beispielsweise der Physik, ein noch wenig erforschtes Gebiet. Um die Fortschritte in diesen Fähigkeiten abzubilden, stellen wir ein neuartiges und zugängliches Framework vor, das entwickelt wurde, um VLMs hinsichtlich ihres Verständnisses von 2D-Physik rigoros zu bewerten. Unser Framework umfasst einen pragmatischen Szenariengenerator, der eine vielfältige Testumgebung mit über 400 Problemen in vier Kernbereichen schafft: Projektilbewegung, Kollisionsdynamik, Mechanik und Strömungsdynamik. Durch eine umfassende Bewertung von vier state-of-the-art VLMs zeigen wir eine starke Korrelation zwischen der Modellgröße und der Fähigkeit zum logischen Denken, wobei unser bestes Modell, Qwen2.5-VL-7B, eine Gesamtpunktzahl von 0,815 erreicht. Wir stellen fest, dass Modelle zwar bei formelbasierten Problemen exzellent abschneiden, jedoch erhebliche Schwierigkeiten in Bereichen haben, die abstraktes räumliches Denken erfordern. Mit der Entwicklung dieses Frameworks möchten wir die Erforschung des wissenschaftlichen Denkens in VLMs demokratisieren und tiefere Einblicke in ihre Fähigkeiten und Grenzen fördern.
Masked Diffusion Large Language Models (dLLMs) erweisen sich als vielversprechende Alternativen zu autoregressiven LLMs, da sie eine wettbewerbsfähige Leistung bieten und gleichzeitig einzigartige Generierungsfähigkeiten wie Inpainting unterstützen. Wir untersuchen, wie Inpainting das Design von RL-Algorithmen für dLLMs beeinflussen kann. Die Ausrichtung von LLMs an Reinforcement Learning steht vor einer Explorationsherausforderung: spärliche Belohnungssignale und verschwendete Proben, wenn Modelle keine korrekten Lösungen finden. Während diese Ineffizienz LLMs allgemein betrifft, bieten dLLMs eine besondere Gelegenheit – ihre Inpainting-Fähigkeit kann die Exploration leiten. Wir stellen IGPO (Inpainting Guided Policy Optimization) vor, ein RL-Framework, das strategisch partielle Ground-Truth-Reasoning-Traces während des Online-Samplings einfügt. Im Gegensatz zur Bereitstellung vollständiger Lösungen lenkt Inpainting die Exploration in vielversprechende Trajektorienräume, während selbstgeneriertes Reasoning erhalten bleibt, wodurch eine Brücke zwischen überwachtem Fine-Tuning und Reinforcement Learning geschlagen wird. Wir wenden IGPO auf gruppenbasierte Optimierungsmethoden wie GRPO an, bei denen Explorationsfehler zu Null-Vorteilen und Gradienten führen. IGPO stellt sinnvolle Gradienten wieder her und verbessert gleichzeitig die Probeneffizienz. Wir schlagen auch ein überwachtes Fine-Tuning auf synthetisch umgeschriebenen, prägnanten Traces vor, die besser mit den Generierungsmustern von dLLMs übereinstimmen. Mit zusätzlichen Techniken, einschließlich entropiebasierter Filterung, erzielt unser Trainingsrezept erhebliche Gewinne über drei mathematische Benchmarks – GSM8K, Math500 und AMC – und erreicht neue State-of-the-Art-Ergebnisse für Full-Attention-Masked-dLLMs.
Das Model Context Protocol (MCP) etabliert sich zunehmend als ein zentraler offener Standard, der darauf abzielt, die Integration und Interoperabilität von Agenten und Werkzeugen zu verbessern, und ist dazu bestimmt, eine neue Ära leistungsstarker, vernetzter und wirklich nützlicher agentenbasierter KI einzuleiten. Trotz der wachsenden Verbreitung von MCP erfassen bestehende Benchmarks jedoch oft nicht die reale Leistung von Agenten innerhalb dieses neuen Paradigmas, was zu einer verzerrten Wahrnehmung ihres tatsächlichen operationellen Werts und einer mangelnden Fähigkeit führt, ihre Kompetenzen zuverlässig zu unterscheiden. Um diese kritische Bewertungslücke zu schließen, stellen wir MCP-AgentBench vor – einen umfassenden Benchmark, der speziell entwickelt wurde, um die Fähigkeiten von Sprachagenten in MCP-vermittelten Werkzeuginteraktionen rigoros zu bewerten. Zu den Kernbeiträgen von MCP-AgentBench gehören: die Einrichtung eines robusten MCP-Testbeds, das 33 operative Server mit 188 verschiedenen Werkzeugen umfasst; die Entwicklung eines Benchmarks mit 600 systematisch gestalteten Anfragen, die über 6 verschiedene Kategorien mit unterschiedlicher Interaktionskomplexität verteilt sind; und die Einführung von MCP-Eval, einer neuartigen ergebnisorientierten Bewertungsmethodik, die den Erfolg bei realen Aufgaben priorisiert. Durch umfangreiche empirische Bewertungen führender Sprachagenten liefern wir grundlegende Erkenntnisse. MCP-AgentBench zielt darauf ab, der Forschungsgemeinschaft ein standardisiertes und zuverlässiges Framework an die Hand zu geben, um Agenten zu entwickeln, zu validieren und voranzutreiben, die in der Lage sind, die transformativen Vorteile von MCP voll auszuschöpfen, und so den Fortschritt hin zu wirklich leistungsfähigen und interoperablen KI-Systemen zu beschleunigen.
Jüngste Fortschritte bei Large Language Models (LLMs) haben beeindruckende Fähigkeiten im Bereich des finanziellen Denkens und Marktverständnisses demonstriert. Multi-Agenten-LLM-Frameworks wie TradingAgent und FINMEM erweitern diese Modelle für langfristige Investitionsaufgaben, indem sie fundamentale und sentimentbasierte Eingaben für strategische Entscheidungsfindung nutzen. Solche Systeme sind jedoch für die hochgeschwindigkeits- und präzisionskritischen Anforderungen des Hochfrequenzhandels (High-Frequency Trading, HFT) ungeeignet. HFT erfordert schnelle, risikobewusste Entscheidungen basierend auf strukturierten, kurzfristigen Signalen, einschließlich technischer Indikatoren, Chartmuster und trendbasierter Merkmale, die sich von der langfristigen semantischen Argumentation traditioneller finanzieller LLM-Anwendungen unterscheiden. Zu diesem Zweck stellen wir QuantAgent vor, das erste Multi-Agenten-LLM-Framework, das speziell für den hochfrequenten algorithmischen Handel entwickelt wurde. Das System zerlegt den Handel in vier spezialisierte Agenten: Indicator, Pattern, Trend und Risk, die jeweils mit domänenspezifischen Werkzeugen und strukturierten Argumentationsfähigkeiten ausgestattet sind, um unterschiedliche Aspekte der Marktdynamik in kurzen Zeitfenstern zu erfassen. In Zero-Shot-Evaluierungen über zehn Finanzinstrumente, einschließlich Bitcoin und Nasdaq-Futures, zeigt QuantAgent eine überlegene Leistung sowohl in der Vorhersagegenauigkeit als auch im kumulativen Ertrag über 4-stündige Handelsintervalle und übertrifft dabei starke neuronale und regelbasierte Baselines. Unsere Ergebnisse deuten darauf hin, dass die Kombination von strukturierten finanziellen Vorannahmen mit sprachnativer Argumentation neues Potenzial für nachvollziehbare, Echtzeit-Entscheidungssysteme in hochfrequenten Finanzmärkten erschließt.
Die Entwicklung effizienter Vision-Language-Action (VLA)-Politiken ist entscheidend für den praktischen Einsatz in der Robotik, doch aktuelle Ansätze stoßen auf prohibitive Rechenkosten und Ressourcenanforderungen. Bestehende, auf Diffusion basierende VLA-Politiken benötigen Modelle mit mehreren Milliarden Parametern und massive Datensätze, um eine starke Leistung zu erzielen. Wir adressieren diese Effizienzherausforderung mit zwei Beiträgen: der Fusion von Zwischenmodalitäten, die Kapazitäten durch das Beschneiden von bis zu 50 % der LLM-Schichten auf den Diffusionskopf umverteilt, und der aktionsspezifischen Global-AdaLN-Konditionierung, die die Parameteranzahl durch modulare Anpassung um 20 % reduziert. Wir integrieren diese Fortschritte in ein neuartiges 950-Millionen-Parameter-VLA namens FLOWER. Mit einer Vortrainingszeit von nur 200 H100-GPU-Stunden liefert FLOWER eine wettbewerbsfähige Leistung im Vergleich zu größeren VLAs über 190 Aufgaben hinweg, die zehn Simulations- und realweltliche Benchmarks umfassen, und zeigt Robustheit über verschiedene robotische Ausführungen hinweg. Zudem erreicht FLOWER einen neuen State-of-the-Art-Wert von 4,53 auf dem CALVIN-ABC-Benchmark. Demos, Code und vortrainierte Gewichte sind verfügbar unter https://intuitive-robots.github.io/flower_vla/.
Das Lernen mit langen Schwänzen (Long-tailed Learning) hat aufgrund seiner breiten Anwendbarkeit in realen Szenarien zunehmend Aufmerksamkeit erregt. Unter den bestehenden Ansätzen hat sich das halbüberwachte Lernen mit langen Schwänzen (Long-Tailed Semi-Supervised Learning, LTSSL) als effektive Lösung herausgestellt, indem es eine große Menge ungelabelter Daten in den unausgeglichenen gelabelten Datensatz integriert. Die meisten bisherigen LTSSL-Methoden sind jedoch darauf ausgelegt, Modelle von Grund auf zu trainieren, was oft zu Problemen wie Überzuversicht und qualitativ minderwertigen Pseudolabels führt. Um diese Herausforderungen zu bewältigen, erweitern wir LTSSL in das Paradigma des Feinabstimmens von Foundation-Modellen und schlagen einen neuartigen Rahmen vor: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). Wir zeigen, dass feinabgestimmte Foundation-Modelle zuverlässigere Pseudolabels generieren können, was dem unausgeglichenen Lernen zugutekommt. Darüber hinaus untersuchen wir eine praktischere Einstellung, indem wir halbüberwachtes Lernen unter Open-World-Bedingungen betrachten, bei denen die ungelabelten Daten Out-of-Distribution (OOD)-Proben enthalten können. Um dieses Problem zu lösen, schlagen wir LoFT-OW (LoFT unter Open-World-Szenarien) vor, um die diskriminative Fähigkeit zu verbessern. Experimentelle Ergebnisse auf mehreren Benchmarks zeigen, dass unsere Methode im Vergleich zu früheren Ansätzen eine überlegene Leistung erzielt, selbst wenn nur 1\% der ungelabelten Daten im Vergleich zu früheren Arbeiten verwendet werden.
Wir stellen Probabilistic Structure Integration (PSI) vor, ein System zum Erlernen von reichhaltig steuerbaren und flexibel promptbaren Weltmodellen aus Daten. PSI besteht aus einem dreistufigen Zyklus. Der erste Schritt, Probabilistische Vorhersage, beinhaltet den Aufbau eines probabilistischen grafischen Modells Psi der Daten in Form eines zufallszugriffsfähigen autoregressiven Sequenzmodells. Psi unterstützt einen vollständigen Satz gelerntet bedingter Verteilungen, die die Abhängigkeit beliebiger Variablen in den Daten von jeder anderen Menge von Variablen beschreiben. In Schritt 2, Strukturextraktion, zeigen wir, wie zugrundeliegende niedrigdimensionale Eigenschaften in den Daten extrahiert werden können, die einer vielfältigen Menge bedeutungsvoller „Zwischenstrukturen“ entsprechen, in einem Zero-Shot-Verfahren durch kausale Inferenz auf Psi. Schritt 3, Integration, vervollständigt den Zyklus, indem diese Strukturen in neue Tokentypen umgewandelt werden, die dann kontinuierlich als Konditionierungssignale und Vorhersageziele in die Trainingsdaten eingemischt werden. Jeder solche Zyklus erweitert die Fähigkeiten von Psi, ermöglicht es ihm, die zugrundeliegenden Daten besser zu modellieren, und schafft neue Steuerungsmöglichkeiten – ähnlich einer universellen Prompting-Sprache wie bei einem LLM. Wir trainieren eine Instanz von Psi auf 1,4 Billionen Tokens von Internet-Videodaten; wir verwenden sie, um eine Vielzahl nützlicher Video-Vorhersagen und Verständnisinferenzen durchzuführen; wir extrahieren state-of-the-art optischen Fluss, selbstüberwachte Tiefe und Objektsegmentierung; und wir verwenden diese Strukturen, um einen vollständigen Zyklus von Vorhersageverbesserungen zu unterstützen.
Eine präzise Farbausrichtung bei der Text-zu-Bild (T2I)-Generierung ist entscheidend für Anwendungen wie Mode, Produktvisualisierung und Innenarchitektur. Dennoch haben aktuelle Diffusionsmodelle Schwierigkeiten mit nuancierten und zusammengesetzten Farbbegriffen (z. B. Tiffany-Blau, Limettengrün, Knallrosa) und erzeugen oft Bilder, die nicht mit der menschlichen Absicht übereinstimmen. Bisherige Ansätze stützen sich auf die Manipulation von Cross-Attention, Referenzbilder oder Feinabstimmung, scheitern jedoch daran, mehrdeutige Farbbeschreibungen systematisch zu lösen. Um Farben bei mehrdeutigen Eingabeaufforderungen präzise darzustellen, schlagen wir ein trainingsfreies Framework vor, das die Farbtreue verbessert, indem ein großes Sprachmodell (LLM) zur Disambiguierung farbbezogener Eingabeaufforderungen genutzt wird und Farbmischungsoperationen direkt im Text-Einbettungsraum gesteuert werden. Unsere Methode verwendet zunächst ein großes Sprachmodell (LLM), um mehrdeutige Farbbegriffe im Textprompt aufzulösen, und verfeinert dann die Text-Einbettungen basierend auf den räumlichen Beziehungen der resultierenden Farbbegriffe im CIELAB-Farbraum. Im Gegensatz zu früheren Methoden verbessert unser Ansatz die Farbgenauigkeit, ohne zusätzliches Training oder externe Referenzbilder zu benötigen. Experimentelle Ergebnisse zeigen, dass unser Framework die Farbausrichtung verbessert, ohne die Bildqualität zu beeinträchtigen, und so die Lücke zwischen Textsemantik und visueller Generierung schließt.
Gesprochene Sprachmodelle (SLMs) haben sich als einheitliches Paradigma für das Sprachverständnis und die Sprachgenerierung etabliert, wodurch eine natürliche Mensch-Maschine-Interaktion ermöglicht wird. Während sich die meisten Fortschritte jedoch auf semantische Genauigkeit und die Befolgung von Anweisungen konzentriert haben, wurde die Fähigkeit von SLMs, ihren Sprechstil basierend auf gesprochenen Anweisungen anzupassen, bisher nur begrenzt untersucht. Wir stellen Voice Style Adaptation (VSA) vor, eine neue Aufgabe, die untersucht, ob SLMs ihren Sprechstil, wie Timbre, Prosodie oder Persona, basierend auf natürlichen gesprochenen Befehlen anpassen können. Um diese Aufgabe zu untersuchen, präsentieren wir VStyle, einen zweisprachigen (Chinesisch & Englisch) Benchmark, der vier Kategorien der Sprachgenerierung abdeckt: akustische Attribute, natürliche Sprachbefehle, Rollenspiel und implizite Empathie. Wir führen auch das Large Audio Language Model as a Judge (LALM as a Judge) Framework ein, das die Ausgaben progressiv entlang textlicher Treue, Stilbefolgung und Natürlichkeit bewertet und so eine reproduzierbare und objektive Beurteilung sicherstellt. Experimente mit kommerziellen Systemen und Open-Source-SLMs zeigen, dass aktuelle Modelle klare Grenzen bei der kontrollierbaren Stilanpassung aufweisen, was sowohl die Neuartigkeit als auch die Herausforderung dieser Aufgabe unterstreicht. Durch die Veröffentlichung von VStyle und seinem Bewertungstoolkit möchten wir der Community eine Grundlage für die Weiterentwicklung menschzentrierter gesprochener Interaktion bieten. Der Datensatz und der Code sind öffentlich verfügbar unter https://junzhan2000.github.io/VStyle.github.io/{Projekt-Homepage}.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in verschiedenen Bereichen erzielt. Dennoch bleibt eine grundlegende Frage bestehen: Können LLMs kausales Wissen effektiv für Vorhersagen und Generierung nutzen? Durch empirische Studien stellen wir fest, dass LLMs, die direkt auf großen Datensätzen trainiert werden, oft Scheinkorrelationen anstelle echter kausaler Zusammenhänge erfassen, was zu suboptimalen Leistungen führt, insbesondere in Out-of-Distribution (OOD)-Szenarien. Um diese Herausforderung zu bewältigen, schlagen wir Causal Attention Tuning (CAT) vor, einen neuartigen Ansatz, der feinkörniges kausales Wissen in den Aufmerksamkeitsmechanismus einfügt. Wir entwickeln eine automatisierte Pipeline, die menschliche Vorannahmen nutzt, um automatisch token-spezifische kausale Signale zu generieren, und führen den Re-Attention-Mechanismus ein, um das Training zu steuern. Dies hilft dem Modell, sich auf kausale Strukturen zu konzentrieren und gleichzeitig Rauschen und Verzerrungen in den Aufmerksamkeitswerten zu reduzieren. Experimentelle Ergebnisse auf unserem vorgeschlagenen Spurious Token Game (STG)-Benchmark und mehreren Downstream-Aufgaben zeigen, dass unser Ansatz kausales Wissen effektiv für Vorhersagen nutzt und in OOD-Szenarien robust bleibt. Implementierungsdetails finden Sie unter https://github.com/Kairong-Han/CAT.
Die Einbeziehung externer Kontexte kann die Antwortqualität von Large Language Models (LLMs) erheblich verbessern. In realen Anwendungsszenarien enthalten Kontexte jedoch oft eine Mischung aus relevanten und unangemessenen Inhalten, was Zuverlässigkeitsrisiken birgt. Wie verarbeiten und priorisieren LLMs gemischte Kontexte? Um dies zu untersuchen, führen wir das Poisoned Context Testbed ein, das Anfragen mit realen Kontexten kombiniert, die sowohl relevante als auch unangemessene Inhalte enthalten. Inspiriert vom assoziativen Lernen bei Tieren, adaptieren wir das Rescorla-Wagner (RW)-Modell aus der Neurowissenschaft, um zu quantifizieren, wie konkurrierende kontextuelle Signale die Ausgaben von LLMs beeinflussen. Unser adaptiertes Modell zeigt ein konsistentes Verhaltensmuster: LLMs neigen stark dazu, Informationen zu übernehmen, die im Kontext weniger präsent sind. Diese Anfälligkeit ist in realen Anwendungen problematisch, da bereits geringe Mengen unangemessener Inhalte die Antwortqualität erheblich beeinträchtigen können. Empirische Auswertungen auf unserem Testbed bestätigen diese Schwachstelle weiter. Um dies zu adressieren, führen wir RW-Steering ein, einen zweistufigen, feinabstimmungsbasierten Ansatz, der dem Modell ermöglicht, unangemessene Signale intern zu identifizieren und zu ignorieren. Im Gegensatz zu früheren Methoden, die auf umfangreiche Überwachung über diverse Kontextmischungen angewiesen sind, generalisiert RW-Steering robust über unterschiedliche Anteile unangemessener Inhalte hinweg. Experimente zeigen, dass unser bestes feinabgestimmtes Modell die Antwortqualität um 39,8 % verbessert und das unerwünschte Verhaltensmuster umkehrt. Damit etabliert sich RW-Steering als eine robuste, generalisierbare Lösung für das Kontext-Engineering, um die Sicherheit von LLMs in realen Anwendungen zu erhöhen.
Visuelles Schließen über strukturierte Daten wie Tabellen ist eine entscheidende Fähigkeit für moderne Vision-Language-Modelle (VLMs), doch aktuelle Benchmarks bleiben in Bezug auf Umfang, Vielfalt oder Tiefe des Schließens begrenzt, insbesondere bei gerenderten Tabellenbildern. Um diese Lücke zu schließen, stellen wir Visual-TableQA vor, ein groß angelegtes, domänenoffenes multimodales Datenset, das speziell zur Bewertung und Verbesserung des visuellen Schließens über komplexe Tabellendaten entwickelt wurde. Unsere Erzeugungspipeline ist modular, skalierbar und vollständig autonom und umfasst mehrere Reasoning-LLMs, die in verschiedenen Rollen zusammenarbeiten: Erzeugung, Validierung und Inspiration. Visual-TableQA besteht aus 2,5k reich strukturierten LaTeX-gerenderten Tabellen und 6k schlussfolgerungsintensiven QA-Paaren, die alle zu Kosten von unter 100 USD produziert wurden. Um Vielfalt und Kreativität zu fördern, führt unsere Pipeline eine Multi-Modell-kollaborative Datengenerierung durch Cross-Model-Prompting (‚Inspiration‘) und LLM-Jury-Filterung durch. Stärkere Modelle legen Layouts und Themen fest, die schwächere Modelle ausarbeiten, wodurch gemeinsam diverse Schließmuster und visuelle Strukturen in das Datenset destilliert werden. Empirische Ergebnisse zeigen, dass auf Visual-TableQA feinabgestimmte Modelle robust auf externe Benchmarks generalisieren und trotz des synthetischen Charakters des Datensets mehrere proprietäre Modelle übertreffen. Die vollständige Pipeline und Ressourcen sind öffentlich unter https://github.com/AI-4-Everyone/Visual-TableQA verfügbar.
Dieses Systempapier präsentiert die Ansätze des DeMeVa-Teams für die dritte Ausgabe der gemeinsamen Aufgabe „Learning with Disagreements“ (LeWiDi 2025; Leonardelli et al., 2025). Wir untersuchen zwei Richtungen: In-Context-Learning (ICL) mit großen Sprachmodellen, bei dem wir verschiedene Beispielsammlungsstrategien vergleichen; und Label Distribution Learning (LDL) Methoden mit RoBERTa (Liu et al., 2019b), bei denen wir mehrere Feinabstimmungsmethoden evaluieren. Unsere Beiträge sind zweifach: (1) Wir zeigen, dass ICL effektiv annotatorspezifische Annotationen (perspektivistische Annotationen) vorhersagen kann und dass die Aggregation dieser Vorhersagen zu Soft Labels eine wettbewerbsfähige Leistung erzielt; und (2) Wir argumentieren, dass LDL-Methoden vielversprechend für die Vorhersage von Soft Labels sind und eine weitere Erforschung durch die perspektivistische Gemeinschaft verdienen.
Große Sprachmodelle (LLMs) revolutionieren die sozialwissenschaftliche Forschung zunehmend, indem sie die Automatisierung arbeitsintensiver Aufgaben wie Datenannotation und Textanalyse ermöglichen. Allerdings variieren die Ausgaben von LLMs erheblich in Abhängigkeit von den Implementierungsentscheidungen der Forschenden (z. B. Modellauswahl, Prompting-Strategie oder Temperatur-Einstellungen). Solche Variationen können systematische Verzerrungen und zufällige Fehler einführen, die sich auf nachgelagerte Analysen auswirken und zu Fehlern vom Typ I, Typ II, Typ S oder Typ M führen können. Wir bezeichnen dies als LLM-Hacking. Wir quantifizieren das Risiko von LLM-Hacking, indem wir 37 Datenannotationsaufgaben aus 21 veröffentlichten sozialwissenschaftlichen Studien mit 18 verschiedenen Modellen replizieren. Durch die Analyse von 13 Millionen LLM-Labels testen wir 2.361 realistische Hypothesen, um zu messen, wie plausible Forscherentscheidungen statistische Schlussfolgerungen beeinflussen. Wir stellen fest, dass bei etwa jeder dritten Hypothese für state-of-the-art-Modelle und bei der Hälfte der Hypothesen für kleinere Sprachmodelle falsche Schlussfolgerungen auf der Grundlage von LLM-annotierten Daten gezogen werden. Obwohl unsere Ergebnisse zeigen, dass eine höhere Aufgabenleistung und bessere allgemeine Modellfähigkeiten das LLM-Hacking-Risiko verringern, eliminieren selbst hochgenaue Modelle dieses Risiko nicht vollständig. Das Risiko von LLM-Hacking nimmt mit zunehmenden Effektstärken ab, was die Notwendigkeit einer strengeren Überprüfung von Ergebnissen in der Nähe von Signifikanzschwellen unterstreicht. Unsere umfangreiche Analyse von Techniken zur Risikominderung von LLM-Hacking betont die Bedeutung menschlicher Annotationen bei der Reduzierung falsch positiver Befunde und der Verbesserung der Modellauswahl. Überraschenderweise sind gängige Korrekturtechniken für Regressionsschätzer weitgehend unwirksam bei der Reduzierung des LLM-Hacking-Risikos, da sie stark zwischen Fehlern vom Typ I und Typ II abwägen. Über unbeabsichtigte Fehler hinaus stellen wir fest, dass absichtliches LLM-Hacking unannehmbar einfach ist. Mit wenigen LLMs und nur einer Handvoll Prompt-Umschreibungen kann alles als statistisch signifikant dargestellt werden.
Minderheitensprachen in China, wie Tibetisch, Uigurisch und traditionelles Mongolisch, stehen aufgrund ihrer einzigartigen Schriftsysteme, die von internationalen Standards abweichen, vor erheblichen Herausforderungen. Diese Diskrepanz hat zu einem gravierenden Mangel an relevanten Korpora geführt, insbesondere für überwachte Aufgaben wie die Überschriftengenerierung. Um diese Lücke zu schließen, stellen wir einen neuartigen Datensatz vor, Chinese Minority Headline Generation (CMHG), der 100.000 Einträge für Tibetisch sowie jeweils 50.000 Einträge für Uigurisch und Mongolisch umfasst, die speziell für Aufgaben der Überschriftengenerierung kuratiert wurden. Zusätzlich schlagen wir einen hochwertigen Testdatensatz vor, der von Muttersprachlern annotiert wurde und als Benchmark für zukünftige Forschungen in diesem Bereich dienen soll. Wir hoffen, dass dieser Datensatz eine wertvolle Ressource für die Weiterentwicklung der Überschriftengenerierung in chinesischen Minderheitensprachen darstellt und zur Entwicklung verwandter Benchmarks beiträgt.