Gefühlsasymmetrien in der KI: Sentiment-bias zwischen Englisch und Persisch in harmonisierten LLM-Pipelines
Volumen 38, Ausgabe 2, Juli 2025, Seiten 143-157
https://doi.org/10.22034/spektrum.2026.563602.1052
Michael W Totaro, Leila Gheisi, Ehsan Shahghasemi
Abstrakt Diese Studie untersucht, wie Sprache die Sentiment-Klassifikation in Ausgaben eines multilingualen großen Sprachmodells (LLM) namens Grok beeinflusst. Basierend auf Langdon Winners Theorie der technologischen Politik, die besagt, dass Technologien inhärent nicht neutral sind und strukturelle Verzerrungen einbetten, wird geprüft, ob Sentiment-Verteilungen auch bei einer vollständig harmonisierten Analysepipeline systematisch zwischen Sprachen variieren. Die Analyse basiert auf einem Korpus von 4.799 Beiträgen (Englisch: n = 2.399; Persisch: n = 2.400), die mit identischen Aufforderungen erzeugt wurden. Sentiment-Ausgaben wurden auf ein gemeinsames dreistufiges Schema (Negativ, Neutral, Positiv) abgebildet, wobei sowohl diskrete Klassenzuweisungen als auch kontinuierliche Wahrscheinlichkeitswerte berücksichtigt wurden. Strukturelle Merkmale wie Satz-, Wort- und Zeichenanzahl wurden berechnet und als Kontrollvariablen einbezogen, um oberflächliche textuelle Unterschiede zu berücksichtigen. Die Ergebnisse zeigen eine deutliche sprachübergreifende Divergenz in Sentiment-Mustern. Englische Ausgaben konzentrieren sich überwiegend auf Neutralität und weisen eine vergleichsweise geringere affektive Intensität auf, während persische Ausgaben eine starke Verschiebung hin zu positivem Sentiment und größere Streuung zeigen. Diese Unterschiede bleiben auch nach Kontrolle struktureller Merkmale statistisch signifikant, was nahelegt, dass die Sprachzugehörigkeit und nicht Textlänge oder Segmentierung der Hauptfaktor für die beobachteten Sentiment-Unterschiede ist. Auf Wahrscheinlichkeitsniveau zeigen englische Verteilungen eine engere Konzentration nahe Neutralität, während persische Verteilungen flacher und stärker positiv verzerrt sind, mit höheren Intensitätswerten. Diese Ergebnisse haben wichtige Implikationen für mehrsprachige Sentiment-Analysen und LLM-Audits. Ohne explizite Modellierung und Kalibrierung von Spracheffekten könnten vergleichende Analysen sprachliche Variation mit affektiver Absicht verwechseln, was zu verzerrten Schlussfolgerungen über Ton, Haltung oder emotionale Valenz führt. Die Studie betont die Bedeutung der Berichterstattung sowohl von Label- als auch Wahrscheinlichkeitsmetriken, die Anwendung sprachspezifischer Kalibrierungsprotokolle und die Berücksichtigung von Sprache als primäre Messdimension in der sprachübergreifenden Inhaltsanalyse.
