This article belongs to the debate » 9/11 und der öffentliche Diskurs
08 February 2022

Die Moderation von extremistischen Inhalten ist fehleranfällig und verursacht reale Schäden

Mitte der 90er Jahre löste eine fragwürdige und inzwischen widerlegte Studie eines Studenten über die Verbreitung pornografischer Bilder im Internet eine Titelgeschichte im TIME Magazine aus, die zu einer Untersuchung durch den Kongress und schließlich zur Verabschiedung des Communications Decency Act (CDA) führte. Das Gesetz enthielt eine Klausel, die Sanktionen für jeden vorsah, der “einen interaktiven Computerdienst nutzt, um an eine bestimmte Person oder Personen unter 18 Jahren zu senden, oder […] einen interaktiven Computerdienst nutzt, um auf eine Weise, die für eine Person unter 18 Jahren zugänglich ist, einen Kommentar, eine Aufforderung, eine Anregung, einen Vorschlag, ein Bild oder eine andere Mitteilung zu zeigen, die im Kontext sexuelle Aktivitäten oder Organe in einer nach heutigen Maßstäben offensichtlich anstößigen Weise darstellt oder beschreibt”.

Der damalige Präsident Bill Clinton setzte das Gesetz 1996 in Kraft, was den Widerstand von Bürgerrechtsgruppen hervorrief. Die American Civil Liberties Union (ACLU) reichte Klage ein und argumentierte, dass die Zensurbestimmungen des CDA verfassungswidrig seien, weil sie geschützte Äußerungen kriminalisieren würden und weil die Begriffe “Unanständigkeit” und “offenkundig anstößig” zu vage seien und lassen den Behörden zu viel Ermessensspielraum.. In einem bahnbrechenden Urteil aus dem Jahr 1997 stellte der Oberste Gerichtshof fest, dass der CDA eine “unannehmbar schwere Belastung für geschützte Äußerungen” darstellte, die “einen großen Teil der Internetgemeinschaft zu vernichten drohte”. In der Entscheidung schrieb der Richter John Paul Stevens, dass „das Interesse an der Förderung der freien Meinungsäußerung in einer demokratischen Gesellschaft schwerer wiegt als jeder theoretische, aber unbewiesene Nutzen der Zensur“.1)

Das CDA wurde zwar gekippt, und die Pornografie breitete sich letztendlich doch im Internet aus, aber das Debakel hatte dennoch nachhaltige Auswirkungen, da es eine klare Trennlinie zwischen sexuell expliziten Websites und dem Rest des Webs schuf. In Ermangelung des CDA und weiterer staatlicher Regulierungen wurden im Zuge der Entwicklung des “Web 2.0” die meisten Maßnahmen gegen Obszönität von den größten privaten Website-Betreibern eingeführt.

Zwar ist Pornografie im Internet nach wie vor weit verbreitet, doch hat dies eine weitreichende Abschreckung für sexuelle Äußerungen, sowie für nicht-sexuelle Nacktheit und Informationen zur sexuellen Gesundheit zur Folge. Regierungs- und Unternehmensrichtlinien, die darauf abzielen, anspielige Inhalte von den Augen Minderjähriger fernzuhalten (wie Facebooks komplexer Community-Standard zu Nacktheit und Sex), werfen letztendlich ein weites Netz aus, das eine Reihe von Ausdrucksformen und den Austausch von Informationen verhindert.

Alte Taktik, neues Ziel

Heute erleben wir ein ähnliches Phänomen, wenn es um extremistische und terroristische Inhalte im Internet geht: Maßnahmen, die die Möglichkeiten terroristischer Gruppen, sich zu organisieren, zu rekrutieren und aufzuwiegeln einschränken sollen – ebenso wie die Möglichkeit für Einzelpersonen, solche Gruppen zu loben – wurden in den letzten Jahren ausgeweitet und führen häufig dazu, dass nicht nur extremistische Äußerungen, sondern auch Menschenrechtsdokumente, Gegenreden und Kunst gelöscht werden.

Während einige Beschränkungen gesetzlich vorgeschrieben sind, wurden viele Anti-Extremismus-Richtlinien von Unternehmen als Reaktion auf den Druck von Nichtregierungsorganisationen, Regierungen und der Öffentlichkeit geschaffen und haben kaum oder gar keine gesetzliche Grundlage. Während beispielsweise Gruppen wie das Korps der Iranischen Revolutionsgarden (IRGC) von den Vereinigten Staaten sanktioniert sind und daher nicht auf US-Plattformen gezeigt werden dürfen, gibt es kein Gesetz, das Einzelpersonen daran hindert, die Vorzüge ihrer Rolle in der iranischen Gesellschaft zu diskutieren.

Trotzdem sind Unternehmen wie Facebook und Google in den letzten Jahren besonders hart gegen solche Gruppen vorgegangen und haben sich dabei auf ähnliche Instrumente und Taktiken gestützt, die schon seit langem zur Moderation sexuell eindeutiger Inhalte eingesetzt werden.

In den Jahren nach der Aufhebung des CDA verbreitete sich nicht nur sexuell eindeutiges Material für Erwachsene im Internet, sondern auch Bilder von sexuellem Missbrauch von Kindern (CSAM). Die Notwendigkeit, solche Inhalte schnell zu entfernen (und dabei die menschlichen Moderatoren so wenig wie möglich zu belasten), erforderte die Entwicklung von Automatismen, die CSAM erkennen und entfernen können. Das Vorhandensein einer Datenbank der Strafverfolgungsbehörden für CSAM machte das relativ einfach, da Bilder, die online auftauchten, mit denen in einer bestehenden Datenbank abgeglichen werden konnten. So entstand PhotoDNA – eine Technologie, die CSAM identifiziert und mit Material in einer Datenbank auf der Grundlage eindeutiger Fingerabdrücke oder Hashes abgleicht. Wenn problematische Bilder entdeckt werden, werden sie, wie gesetzlich vorgeschrieben, an das National Center for Missing and Exploited Children (NCMEC) gemeldet.

Der Erfinder von PhotoDNA, Dr. Hany Farid – Professor an der University of California, Berkeley – schlug vor, die Technologie zum Aufspüren terroristischer Bilder zu verwenden, was zunächst auf wenig Interesse stieß. Als jedoch die Nutzung sozialer Medien durch Gruppen wie den Islamischen Staat immer ausgefeilter und umfangreicher wurde, begannen Unternehmen, die Technologie zu übernehmen, und stützten sich dabei auf eine vom Global Internet Forum to Counter Terrorism (GIFCT) betriebene Datenbank. Obwohl die GIFCT-Mitgliedsunternehmen nicht verpflichtet sind, die Datenbank zu nutzen, tun es die meisten zumindest teilweise.

Das Problem mit der Definition von ‘Terrorismus’

Der Wettlauf der Unternehmen um die Ausrottung des Extremismus ist jedoch komplexer als der Kampf gegen Bilder von sexuellem Kindesmissbrauch, und zwar aus mehreren Gründen. Erstens gibt es keine weltweit einheitliche Definition von “Terrorismus”, und im Laufe der modernen Geschichte haben Staaten den Begriff verwendet, um ihre Gegner zu klassifizieren und ihnen Rechte zu verweigern. Ein kurzer Blick auf die Listen der Vereinigten Staaten, Europas und der Vereinten Nationen von terroristischen Organisationen zeigt, dass es erhebliche Unterschiede im Ansatz gibt.

Zweitens unterliegen die meisten großen Social-Media-Plattformen auf die eine oder andere Weise dem US-Recht, unabhängig davon, ob sie ihren Hauptsitz in den Vereinigten Staaten haben oder nicht. Sie müssen sich an bestimmte US-Sanktionen halten, stehen aber auch unter dem Druck, sich an US-Klassifizierungen zu halten, die oft politischer Natur sind. Ohne eine international vereinbarte Definition von Terrorismus sind die Unternehmen – und damit auch die Öffentlichkeit – gezwungen, sich auf die Definition der GIFCT und ihrer Mitgliedsunternehmen zu verlassen.

Das hat sich als problematisch erwiesen. In allen Bereichen der Inhaltsmoderation kommt es zu Fehlern, unabhängig davon, ob die Moderation von Menschen, künstlicher Intelligenz oder einer Kombination aus beidem durchgeführt wird. Die Unternehmen geben in der Regel keine Auskunft über ihre Fehlerquote. Speziell im Bereich des Online-Extremismus gibt es Grund zu der Annahme, dass eine Übermoderation aufgrund der oben erwähnten Komplexität, der Starrheit und der typischerweise binären Natur der Durchsetzung von Inhaltsrichtlinien recht häufig vorkommt.

Es gibt zahlreiche anschauliche Beispiele, die die Komplexität der Moderation extremistischer Bilder zeigen. So postete 2017 ein emiratischer Journalist ein Foto mit einem Bild des Hisbollah-Führers Hassan Nasrallah, das mit einer Regenbogen-Pride-Flagge überlagert war und als satirische Aussage gedacht war. Obwohl Satire eine zulässige Ausnahme von den Regeln des Unternehmens gegen terroristische Inhalte ist, wurde das Bild entfernt, weil es das Foto eines ausgewiesenen Terroristen enthielt.2)

Dokumente, die dem Guardian etwa zur gleichen Zeit zugespielt wurden, zeigen, dass Facebook-Moderatoren darauf trainiert sind, Bilder zu entfernen, die Unterstützung, Lob oder Darstellung terroristischer Gruppen enthalten, und solche zu ignorieren, die in neutraler oder kritischer Weise dargestellt werden. Menschliche Moderatoren müssen jedoch Entscheidungen in Sekundenbruchteilen treffen und sich daher die Gesichter zahlreicher ausgewählter Personen einprägen. Die Fehleranfälligkeit ist offensichtlich.

Automatisierung ist fehleranfällig

Die Automatisierung scheint in diesem Bereich noch fehleranfälliger zu sein als der Mensch. Trainingsdatenbibliotheken können normative Attribute für bestimmte Arten von Bildklassifizierungen erstellen; so wird beispielsweise angenommen, dass ein Körper mit großen Brüsten zu einer Frau gehört.3) Das Bild von Nasrallah, das kommentarlos präsentiert wird, würde also nicht als satirisch aufgefasst werden, wenn der Algorithmus für maschinelles Lernen nicht darauf trainiert wäre, die überlagerte Regenbogenflagge zu erkennen.

Um einen Algorithmus für maschinelles Lernen zu trainieren, der terroristische Bilder entfernen soll, muss ein Datensatz erstellt werden, der eine große Menge an Inhalten in einer Kategorie enthält, die dann dem Algorithmus zum Training zugeführt werden. Um beispielsweise extremistische Inhalte genau zu identifizieren, würde ein Unternehmen wie YouTube einen Datensatz erstellen, den es als extremistisch definiert. Anschließend wird ein solcher Datensatz mit einer Vielzahl von Videos extremistischer Gruppen gefüllt, wie zum Beispiel mit Inhalten des Islamischen Staates im Irak und Syrien (ISIS). Fehler, die der Algorithmus macht, sind für Menschen nur schwer zu erkennen, geschweige denn zu diagnostizieren. Wenn die Algorithmen nicht speziell dafür entwickelt wurden, interpretierbar zu sein, können Algorithmen für maschinelles Lernen durch Menschen nicht verstanden werden.

Die Moderation von Texten mithilfe von Algorithmen des maschinellen Lernens kann noch komplexer sein als die Moderation von Bildern. Das Open Technology Institute beschreibt die Herausforderung so: “Bei Inhalten wie extremistischen Inhalten und Hassrede gibt es eine Reihe von nuancierten Variationen in Bezug auf verschiedene Gruppen und Regionen, und der Kontext dieser Inhalte kann entscheidend dafür sein, ob sie entfernt werden sollten oder nicht. Folglich ist die Entwicklung umfassender Datensätze für diese Inhaltskategorien eine Herausforderung, und die Entwicklung und Operationalisierung eines Instruments, das zuverlässig auf verschiedene Gruppen, Regionen und Unterarten von Äußerungen angewendet werden kann, ist ebenfalls äußerst schwierig. Darüber hinaus ist die Definition, welche Arten von Sprache in diese Kategorien fallen, weitaus weniger klar. Das Institut kommt zu dem Schluss, dass “diese Instrumente insofern begrenzt sind, als sie nicht in der Lage sind, die Nuancen und kontextuellen Variationen der menschlichen Sprache zu erfassen.”

Es ist nicht klar, wie viel der GIFCT-Datenbank aus von Menschen identifizierten und wie viel aus maschinell identifizierten Inhalten besteht, da die Datenbank (trotz Aufforderung) nicht mit Mitgliedern der Zivilgesellschaft, die sich mit Menschenrechten befassen, geteilt wird und die GIFCT nur minimale Informationen über die Funktionsweise der Datenbank bereitstellt. Im Gegensatz zu den Datenbanken, die zur Identifizierung von CSAM verwendet werden, unterliegt die GIFCT-Datenbank keiner externen Aufsicht.

So wird jeder in der Datenbank enthaltene Fehler im gesamten Social Web vervielfacht. Und solche Fehler gibt es zuhauf: Neben satirischen Inhalten wie im vorherigen Beispiel werden auch regelmäßig Dokumentationen von Menschenrechtsverletzungen und gewaltsamen Konflikten entfernt. Nach Angaben von Syrian Archive, einer Gruppe, die solche Inhalte dokumentiert, wurden zwischen 2011 und 2019 etwa 206.077 solcher Videos von Plattformen wie Youtube entfernt.

Es ist keine Überraschung, dass Unternehmen so drastische Maßnahmen gegen extremistische Inhalte ergriffen haben. Politiker, Strafverfolgungsbehörden und andere Amtsträger rufen regelmäßig zu übertriebenen Maßnahmen der Privatwirtschaft auf und ignorieren dabei die möglichen Fallstricke. Ein oft wiederholtes Zitat von Commander Dean Haydon des Counter Terrorism Command der Londoner Metorpolitial Police besagt, dass “jeder Tweet das Potenzial hat, gefährdete Personen zu radikalisieren.” Bemerkenswert ist auch der Sprachgebrauch in Aufrufen zu Maßnahmen gegen Extremismus. So fordern Organisationen wie der Christchurch Call, die als Reaktion auf den Angriff eines weißen Extremisten auf zwei Moscheen in Christchurch, Neuseeland, im Jahr 2019 gegründet wurde, häufig die “Ausrottung” oder “Eliminierung” des Extremismus.

Die Entwicklung des Christchurch Call, einer Initiative, an der Regierungen, Unternehmen und die Zivilgesellschaft beteiligt sind und die eng mit dem GIFCT zusammenarbeitet, wirft eine weitere wichtige Frage auf: die Entscheidung darüber, wer ein Terrorist ist und wer eine solche Entscheidung treffen darf. Der Christchurch Call wurde als Reaktion auf einen Terrorakt weißer Rassisten ins Leben gerufen, doch der Schwerpunkt des GIFCT – und angeblich auch der von ihm überwachten Datenbank – liegt auf islamistischen Gruppen wie ISIS und Al-Qaida. Das zeigt eine klare Diskrepanz in den Zielen, beleuchtet aber auch ein Kernproblem bei den Bemühungen, den Terrorismus “auszurotten”: Die Welt ist sich nicht einig darüber, was Terrorismus ist, und, wie bereits erwähnt, haben verschiedene (oder vielleicht die meisten) Regierungen diesen Begriff so manipuliert, dass er ihren politischen Zielen dient. Daher sind der Mangel an Aufsicht und die minimale Beteiligung von Experten und der Zivilgesellschaft äußerst beunruhigend.

Bei diesem Text handelt es sich um eine Übersetzung des Beitrags, ‘The moderation of extremist content is prone to error, causing real-world harm‘, durch Felix Kröner.

References

References
1 Jillian C. York, Silicon Values: The Future of Free Speech Under Surveillance Capitalism (Verso: 2021), S. 147.
2 York, Silicon Values, S. 387.
3 York, Silicon Values, S. 388.

SUGGESTED CITATION  York, Jillian C.: Die Moderation von extremistischen Inhalten ist fehleranfällig und verursacht reale Schäden, VerfBlog, 2022/2/08, https://healthyhabit.life/os4-moderation/, DOI: 10.17176/20220330-011202-0.

Leave A Comment

WRITE A COMMENT

1. We welcome your comments but you do so as our guest. Please note that we will exercise our property rights to make sure that Verfassungsblog remains a safe and attractive place for everyone. Your comment will not appear immediately but will be moderated by us. Just as with posts, we make a choice. That means not all submitted comments will be published.

2. We expect comments to be matter-of-fact, on-topic and free of sarcasm, innuendo and ad personam arguments.

3. Racist, sexist and otherwise discriminatory comments will not be published.

4. Comments under pseudonym are allowed but a valid email address is obligatory. The use of more than one pseudonym is not allowed.