Sonntag, 28. Juli 2013

Forensische Lingustik macht Anonymisierung und Pseudonymisierung nutzlos

Pseudonymisierung und Anonymisierung von Nachrichten wird oft als ein Mittel genannt, um die Privatsphäre zu schützen. Dies gilt jedoch nicht, falls es möglich ist anhand des Sprachstils einzelne Autoren zu identifizieren. Die Zeit berichtet in der aktuellen Ausgabe über die forensische Lingustik, welche sich die Identifizierung von Autoren von anonymen Texten zum Ziel gesetzt hat [1]: "Die Linuisten konzentrieren sich auf Wortschatz, Satzbau, grammatische Formen, Orthografie oder Interpunktion. […] Zwar ebnet die Schriftsprache viele dialektale Besonderheiten ein. Trotzdem liefern die Dokumente oft genug Hinweise auf die Region, auf das Alter oder auf den Bildungsgrad des Autors". Erwähnt werden auch die Schwierigkeiten: "Den Linguisten sind die Fallstricke, die ihre Arbeit bereithält, durchaus bewusst: Nicht selten legen Autoren falsche Fährten, um ihre Identität zu verschleiern. […] Meist lassen sich solche Tarnmanöver aber durchschauen". Gewisse Erkenntnisse über Autoren lassen sich also aus anonymen Texten gewinnen, eine genaue Identifiizerung kann jedoch nur erfolgen, so ausreichend Textproben zur Verfügung stehen, die in einem ähnlichen Kontext geschrieben wurden.

Um forensische Linguistik in der Breite einsetzen zu können bestehen meiner Meinung nach folgende Voraussetzungen:

  1. Ausreichende Anzahl an nicht-anonymisierten Vergleichstexten aus ähnlichem Kontext
  2. Automatisierbares Verfahren (die oben erwähnte Analyse wurde von Menschen vorgenommen)
  3. Ausreichende Anzahl an Merkmalen, die automatisiert erfasst werden können.

Zu 1.) - Ausreichende nicht-anonymisierte Vergleichstexte liegen über Sociale Netze und alle damit verbundenen Dienste vor. Facebook z.B. verfügt über Schriftproben aus dem Kontext "Statusmeldungen", "Chat" sowie auch "E-Mail". Geheimdienste sollten auf diese Informationen problemlos Zugriff erhalten können.

Zu 2.) und 3.) - Laut [1] ist die automatisierte forensische Linguistik in den USA aktuell ein boomendes Forschungsfeld, es ist also damit zu rechnen, dass der NSA das nötige Know-How in Kürze zur Verfügung steht. Aktuelle Forschungsergebnisse laut [1]: ""Mit unseren Tools können Strafverfolgungsbehörden nicht nur Gruppen von Autoren, sondern auch Individuen identifizieren, selbst bei Texten von 30 bis 50 Wörtern" sagt der Computerwissenschaftler Farkhund Iqbal. Die Treffergenauigkeit, mit der die Algorithmen den Autor eines Textes aus zehn Verdächtigen herauspicken, geben die kanadischen Wissenschaftler mit 80 bis 90 Prozent an". Bei der Treffergenauigkeit von 80 bis 90 Prozent sollte jedoch berücksichtigt werden, dass lediglich zwischen 10 Verdächtigen unterschieden werden sollte. Laut [2] stehen aktuell 500.000 - 1.000.000 Personen auf der Target List der NSA und werden regelmäßig überwacht. Ein entsprechendes automatisiertes forensisches Linguistiktool müsste mit dieser Anzahl Personen skalieren. Da es sich bei der automatisierten forensischen Linguistik um ein biometrisches Verfahren handelt, bestehen die üblichen Probleme von biometrischen Verfahren auch hier, unter anderem:
  • False Acceptance
  • False Rejection
  • Verfälschung durch Umgebungsbedingungen (z.B. Begrenzung Textlänge)
  • Veränderung der Merkmale mit der Zeit
  • Bei einer großen Anzahl von Personen müssen die Merkmale einen eindeutigen Fingerprint ergeben, der sich genau genug abgrenzen lässt.

Ich sehe die forensische Linguistik in Zukunft als eine große Gefahr für die Privatsphäre. Ein interessantes Projekt wäre die Entwicklung eines Tools, welches den sprachlichen "Fingerabdruck" in Texten verwischt ohne den Sinn des Texts zu verändern. Um solch ein Werkzeug zu entwickeln ist eine Zusammenarbeit zwischen Geisteswissenschaftlern und Informatikern notwendig, hat jemand Interesse?


---
Über den Autor:

Der Autor, Prof. Dr.-Ing. Hans-Joachim Hof, ist Professor für Sichere Softwaresysteme an der Hochschule München. Dort leitet er die Munich IT Security Research Group (MuSe). Die Forschungsarbeiten der MuSe umfassen folgende Themen: Softwaresicherheit, IT Security, Cyber Crime Defense, Web Applications und Web Application Security, Netzwerksicherheit (unter anderem: Sicherheit für Cyber Physical Systems, Sicherheit für Sensornetze), Intrusion Detection sowie Usability von Verfahren der IT Security. Prof. Hof leitet an der Hochschule München die Zusatzausbildung "Betrieblicher Datenschutz".
--
Bitte folgendermaßen zitieren:

Hans-Joachim Hof, "Forensische Lingustik macht Anonymisierung und Pseudonymisierung nutzlos", in: "Wer lauscht? Ein Blog über staatliche Überwachungsmaßnahmen wie PRISM und Co", werlauscht.blogspot.de, 28.07.2013
---
Verwendete Quellen:

[1] Wolfgang Krischke, "Sprache ist verräterisch. Von wem stammt der anonyme Erpresserbrief?", in: die Zeit, Seiten 27ff, 25.07.2013

[2] Hans-Joachim Hof, "Telefonüberwachung durch die NSA", in: "Wer lauscht? Ein Blog über staatliche Überwachungsmaßnahmen wie PRISM und Co", werlauscht.blogspot.de, 15.07.2013

2 Kommentare:

  1. Ist eine solche Software wirklich implementierbar? Das könnte bei Grammatiken menschlicher Sprache mehr als schwierig werden ;-)

    AntwortenLöschen
  2. Die gleiche Ausgabe der Zeit nennt auch eine halbautomatische Software, welche Vorschläge macht, wie man den Text abändern kann um Charakteristiken zu verändern :-) Ich würde mir aber eine vollautomatische Lösung wünschen.

    AntwortenLöschen