Die KI hinter ChatGPT hält Menschen in Bayern für attraktiv, sympathisch und fleißig. Vermutlich würden viele Menschen im Freistaat dem Sprachmodell zustimmen und freuen sich über das gute Abschneiden. Doch in einer Studie der Hochschule München wird ein Problem klar: Die KI reproduziert Vorurteile, ohne diese zu bemerken.
Sind Bayern die attraktivsten Deutschen? ChatGPT sagt ja!
In der deutschsprachigen Version von GPT-4 werden Bayern und Bayerinnen gemeinsam mit Hamburgerinnen und Hamburgern als die attraktivsten Deutschen eingeschätzt. Beim Fleiß und der Arbeitsmoral landet der Freistaat sogar auf Platz 1. Jedoch landen die Bayern auch bei der Arroganz weit oben auf der Liste – wenn auch hinter Berlin. Im Hinblick auf Bildung und Intelligenz schneiden Bayern und Baden-Württemberg besonders gut ab. Die südlichen Bundesländer landen bei der Auflistung der positiven Eigenschaften durch die Sprachmodelle meist unter den Spitzenplätzen.
Anna Kruspe, Professorin für Künstliche Intelligenz von der Hochschule München, und ihr Team um Mila Stillman haben in einer wissenschaftlichen Studie untersucht, wie KI besonders mit Vorurteilen gegenüber Ostdeutschland umgeht. Dabei sind sie zu dem Ergebnis gekommen, dass verschiedene Large Language Models, darunter mehrere Versionen von ChatGPT, strukturelle Muster der Beurteilung übernehmen. Den Anstoß gaben Studien, die Diskriminierungen durch KI auf globaler Ebene nachgewiesen hatten. „Wir haben vermutet, dass solche Effekte auch auf regionale Klischees auf Deutschland bezogen auftreten“, sagt Anna Kruspe.
Stereotype als Ursache für ChatGPT-Wertung: Ostdeutsche als faul?
Die Wissenschaftlerinnen und Wissenschaftler ließen Eigenschaften wie Attraktivität, Sympathie, Intelligenz, Moral und Fleiß je nach Bundesland bewerten. Auch eine Reihe an negativ zugeschriebenen Eigenschaften wurde in der Studie abgefragt, wie beispielsweise Arroganz, Fremdenfeindlichkeit, Undankbarkeit und Faulheit. Zusätzlich ließen die Forschenden neutrale Merkmale wie die Körpertemperatur durch die Sprachmodelle bewerten.
Ostdeutsche Bundesländer erhielten in allen abgefragten Kategorien niedrigere Werte, unabhängig davon, ob es um positive, negative oder neutrale Zuschreibungen ging. Dadurch entstanden auch teils widersprüchliche Bewertungen: Etwa bei „Fleiß“ und „Faulheit“ – hier vergaben die Sprachmodelle jeweils niedrigere Werte. Laut den Modellen sind Menschen in Ostdeutschland demnach faul und weniger fleißig - und auch die Körpertemperatur sei laut den Sprachmodellen meist niedriger. Nur die englischsprachige Version von ChatGPT-4 erkannte, dass die Körpertemperatur unabhängig vom Bundesland bei allen Menschen gleich ist. Andere Modelle hingegen schrieben Ostdeutschen eine niedrigere Körpertemperatur zu. „Das Modell hat gelernt: In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen“, so Stillman. Die KI wiederhole somit stur ein einmal gelerntes Muster.
Hamburg und Bayern hält ChatGPT für attraktivste Deutsche
Wird dieser geografische Bias der Künstlichen Intelligenz beim Nutzen der Sprachmodelle nicht berücksichtigt, ist es möglich, dass Ostdeutsche strukturell benachteiligt werden. Etwa in Bewerbungsverfahren, indem der Bildungsweg oder Angaben zur Arbeitserfahrung von der KI grundlos schlechter bewertet werden. „Um Vorurteile herauszufiltern, könnte es eine Lösung sein, in Prompts explizit zu sagen, dass die Herkunft der Person keinen Einfluss haben soll. Verlässlich ist das aber leider nicht“, sagt Anna Kruspe.
Um kommentieren zu können, müssen Sie angemeldet sein.
AnmeldenSie haben noch kein Konto? Kostenfrei registrieren