Mit HyperLogLog gegen Vorratsdatenspeicherung

Datenspuren 2023

mcnesium

Schlechte Vorratsdatenspeicherung

  • Telekommunikationsüberwachung
    • immer wieder für illegal erklärt 1
  • Kontaktpersonen-Nachverfolgung
    • Polizei fragt massenhaft Corona-Daten ab 2
  • BVerfG: ,,Wo ein Trog ist, sammeln sich die Schweine’’ 3
  1. https://web.archive.org/web/20230908135057/https://netzpolitik.org/2023/bundesverwaltungsgericht-vorratsdatenspeicherung-ist-und-bleibt-illegal↩︎

  2. https://web.archive.org/web/20220203085614/https://www.zdf.de/nachrichten/politik/corona-kontaktdaten-abfrage-datenschutz-100.html↩︎

  3. https://web.archive.org/web/20230429193856/https://www.zeit.de/digital/datenschutz/2009-12/vds-bverfg-karlsruhe↩︎

Gute Vorratsdatenspeicherung

  • Mozilla Location Service 4
    • Geolocations aus WLAN/Mobilfunk-Daten
  • Technisches Hilfswerk (THW) 5
  1. https://location.services.mozilla.com↩︎

  2. https://web.archive.org/web/20220519114908/https://www.thw.de/SharedDocs/Meldungen/DE/Veranstaltungen/national/2020/02/meldung_001_vost.html↩︎

Virtual Operations Support Teams

THW VOST, Tour de France, Düsseldorf 2017
  1. https://web.archive.org/web/20230329030325/https://www.vgiscience.org/2018/10/07/virtual-operations-support-teams.html↩︎

  • Humanitäre Hilfe im Krisenfall
  • Social Media Datenanalyse
  • Weitergabe der Erkenntnisse an Behörden
    wie Feuerwehr oder Polizei

vostde

Visual Social Media Analytics Software adapted for VOSTde
  1. https://web.archive.org/web/20230329030325/https://www.vgiscience.org/2018/10/07/virtual-operations-support-teams.html↩︎

VOST Einsatzszenarien

  • Naturkatastrophen
  • Massenveranstaltungen
  • Demonstrationen

Social Media Daten

… vorratsgespeichert für die gute Sache

  • Humanitäre Hilfe
  • Journalismus
  • Forschung und Wissenschaft

Was halten eigentlich
die User davon?

¯\_(ツ)_/¯

Datenanalyse
vs.
Privatsphäre schützen

,,Was ich nicht hab, kann ich nicht verlieren’’ (Izaak Walton, ~1600) 8
,,Privacy by Design’’ (Cavoukian et al, 2010) 9

  1. https://web.archive.org/web/20211206232056/https://www.aphorismen.de/zitat/150030↩︎

  2. https://doi.org/10.1007%2Fs12394-010-0062-y↩︎

Szenario: Hochwasser

CC BY-SA 2.0 superscheeli
  1. https://www.flickr.com/photos/78749146@N06/8971384432↩︎

Ziel: Echtzeitkarte

© stadtplan.dresden.de

Strategie

  • Social Media Posts mit #hochwasser auswerten
  • Geodaten extrahieren
  • Gebiete in Karte markieren

Klassische Herangehensweise

  1. Daten runterladen
  2. in Datenbank speichern
  3. auswerten

Beispiel-Post

Beispiel-Datenbankeintrag

  • Wer?
  • Wann?
  • Wo?
  • Was?

Probleme

  • Potential für Zweckentfremdung
  • keine Einwilligung der Social Media User
  • implizite Privatsphäreverletzung

Diskrepanz

  • die meisten Daten werden gar nicht gebraucht

privacy by design

,,Was ich nicht hab, kann ich nicht verlieren’’

HyperLogLog

(Flajolet et al, 2007) 11

  1. https://doi.org/10.46298/dmtcs.3545↩︎

  • Cardinality Estimation Algorithm
    • die Kardinalität (Anzahl der verschiedenen Elemente) einer Menge schätzen
  • gespeichert werden nur statistische Daten
  • kein Rückschluss auf ursprüngliche Originaldaten