Um forensische Linguistik in der Breite einsetzen zu können bestehen meiner Meinung nach folgende Voraussetzungen:
- Ausreichende Anzahl an nicht-anonymisierten Vergleichstexten aus ähnlichem Kontext
- Automatisierbares Verfahren (die oben erwähnte Analyse wurde von Menschen vorgenommen)
- Ausreichende Anzahl an Merkmalen, die automatisiert erfasst werden können.
Zu 1.) - Ausreichende nicht-anonymisierte Vergleichstexte liegen über Sociale Netze und alle damit verbundenen Dienste vor. Facebook z.B. verfügt über Schriftproben aus dem Kontext "Statusmeldungen", "Chat" sowie auch "E-Mail". Geheimdienste sollten auf diese Informationen problemlos Zugriff erhalten können.
Zu 2.) und 3.) - Laut [1] ist die automatisierte forensische Linguistik in den USA aktuell ein boomendes Forschungsfeld, es ist also damit zu rechnen, dass der NSA das nötige Know-How in Kürze zur Verfügung steht. Aktuelle Forschungsergebnisse laut [1]: ""Mit unseren Tools können Strafverfolgungsbehörden nicht nur Gruppen von Autoren, sondern auch Individuen identifizieren, selbst bei Texten von 30 bis 50 Wörtern" sagt der Computerwissenschaftler Farkhund Iqbal. Die Treffergenauigkeit, mit der die Algorithmen den Autor eines Textes aus zehn Verdächtigen herauspicken, geben die kanadischen Wissenschaftler mit 80 bis 90 Prozent an". Bei der Treffergenauigkeit von 80 bis 90 Prozent sollte jedoch berücksichtigt werden, dass lediglich zwischen 10 Verdächtigen unterschieden werden sollte. Laut [2] stehen aktuell 500.000 - 1.000.000 Personen auf der Target List der NSA und werden regelmäßig überwacht. Ein entsprechendes automatisiertes forensisches Linguistiktool müsste mit dieser Anzahl Personen skalieren. Da es sich bei der automatisierten forensischen Linguistik um ein biometrisches Verfahren handelt, bestehen die üblichen Probleme von biometrischen Verfahren auch hier, unter anderem:
- False Acceptance
- False Rejection
- Verfälschung durch Umgebungsbedingungen (z.B. Begrenzung Textlänge)
- Veränderung der Merkmale mit der Zeit
- Bei einer großen Anzahl von Personen müssen die Merkmale einen eindeutigen Fingerprint ergeben, der sich genau genug abgrenzen lässt.
Ich sehe die forensische Linguistik in Zukunft als eine große Gefahr für die Privatsphäre. Ein interessantes Projekt wäre die Entwicklung eines Tools, welches den sprachlichen "Fingerabdruck" in Texten verwischt ohne den Sinn des Texts zu verändern. Um solch ein Werkzeug zu entwickeln ist eine Zusammenarbeit zwischen Geisteswissenschaftlern und Informatikern notwendig, hat jemand Interesse?
---
Über den Autor:
Der Autor, Prof. Dr.-Ing. Hans-Joachim Hof, ist Professor für Sichere Softwaresysteme an der Hochschule München. Dort leitet er die Munich IT Security Research Group (MuSe). Die Forschungsarbeiten der MuSe umfassen folgende Themen: Softwaresicherheit, IT Security, Cyber Crime Defense, Web Applications und Web Application Security, Netzwerksicherheit (unter anderem: Sicherheit für Cyber Physical Systems, Sicherheit für Sensornetze), Intrusion Detection sowie Usability von Verfahren der IT Security. Prof. Hof leitet an der Hochschule München die Zusatzausbildung "Betrieblicher Datenschutz".
--
Bitte folgendermaßen zitieren:
Hans-Joachim Hof, "Forensische Lingustik macht Anonymisierung und Pseudonymisierung nutzlos", in: "Wer lauscht? Ein Blog über staatliche Überwachungsmaßnahmen wie PRISM und Co", werlauscht.blogspot.de, 28.07.2013
---
Verwendete Quellen:
[1] Wolfgang Krischke, "Sprache ist verräterisch. Von wem stammt der anonyme Erpresserbrief?", in: die Zeit, Seiten 27ff, 25.07.2013
[2] Hans-Joachim Hof, "Telefonüberwachung durch die NSA", in: "Wer lauscht? Ein Blog über staatliche Überwachungsmaßnahmen wie PRISM und Co", werlauscht.blogspot.de, 15.07.2013