Comments on: Big data & krakend ijs onder anonimisatie

By: Geavanceerd Event Driven Engineering | Smals Research

Geavanceerd Event Driven Engineering | Smals Research — Wed, 16 Dec 2015 08:01:44 +0000

[…] die manier zijn CEP systemen ook belangrijk in Big Data Analytics, waarbij de Big Data bestaat uit zaken die doorheen de tijd gebeuren (plus uiteraard […]

By: Kristof Verslype

Kristof Verslype — Wed, 13 May 2015 07:00:20 +0000

Beste Philippe,

Het gebeurt inderdaad zoals je beschrijft. Ik heb geen weet van fundamenteel andere methodes. Dit wordt door de onderzoekers van MIT een correlation attack genoemd. We kunnen een aantal zaken over een individu te weten komen die we ook in de geanonimiseerde dataset terugvinden. In de tekst schrijf ik vb. over location tracking: “We kunnen deze informatie vinden via onder meer geo-tagged tweets, geo-tagged foto’s, Facebook posts, rekeningen en check-ins op Foursquare.” Hoe meer dergelijke gegevens je hebt, hoe zekerder je bent over de link tussen de geanonimiseerde data en een individu.

Zo is het mogelijk dat die data na een correlation attack nog maar slechts aan drie personen (A, B en C) gelinkt kan worden (waarschijnlijkheid van 33,33% elk). Hoewel we de data strikt genomen nog niet gedeanonimiseerd hebben, kan dit toch al schade berokkenen aan één of meer betrokkenen.

Je kan bijkomend gebruik maken van gekende statistische data: in onze geanonimiseerde data is er sprake van een loon lager dan X €/maand en gezien 80% van de inwoners in de wijk van persoon A een lager inkomen hebben (tegenover 40% en 25% voor de individuen B en C), kennen we aan A aan hogere waarschijnlijkheid toe (en een lagere aan B en C).

Vriendelijke Groeten,

Kristof Verslype

By: Philippe

Philippe — Tue, 12 May 2015 16:03:18 +0000

Welke soorten aanvallen zijn er zo al mogelijk (high-level gezien)?

Ik kan me enkel het volgende scenario bedenken: we hebben een set gegevens X1 -> Xn. Een aantal subsets van die gegevens zijn voldoende om in de meeste gevallen een uniek patroon op te leveren. Stel dat bijvoorbeeld de subset X1 -> Xk een uniek patroon oplevert en dat een aanvaller genoeg externe informatie heeft om X1 -> Xk aan een persoon te linken. In dat geval kunnen de gegevens Xk+1 -> Xn dan ook met die persoon in verband gebracht worden.

Zijn er nog andere mogelijkheden om data te deanonimiseren?