Dane wrażliwe

Dane osobowe to szeroki temat, jakkolwiek szeroko lub wąsko rozumiany – dla wielu wrażliwych jest to temat bardzo drażliwy. Jednak niezależnie od tego jak bardzo dana osoba przejmuje się bezpieczeństwem czy poufnością danych powierzonych innym podmiotom (świadomie czy nie) to jednak ustawa na każdego administratora danych osobowych nakłada obowiązek takiego ich przetwarzania, przechowywania i transmitowania by ich spójność i bezpieczeństwo były gwarantowane (i zgodne z ustawą – bla, bla, bla).

Część danych pozwala na jednoznaczną identyfikację osoby (lub podmiotu), której dotyczą. Są to unikalne identyfikatory typu PESEl, NIP, czy REGON. Mniej oczywiste są identyfikatory typu nazwa / imię i nazwisko – które w skali globalnej wcale nie muszą być unikalne. Podobnie poszczególne fragmenty adresu zamieszkania / korespondencyjnego nie muszą precyzyjnie wskazywać konkretnej osoby lub grupy osób (pomijając nawet zmienność i rozbieżność takich danych w czasie – ludzie i firmy często zmieniają miejsce zamieszkania / prowadzenia działalności– także jeden adres może być współdzielony przez wiele podmiotów) ale już w połączeniu z imieniem i nazwiskiem lub datą urodzenia mogą zawęzić zbiór potencjalnych osób do jednego człowieka.

A nawet jeśli nie – to wskazanie konkretnej grupy osób (np. rodziny) może już być odebrane jako pogwałcenie prywatności. Należy bardzo uważać przy łączeniu danych – może się zdarzyć, że połączenie częściowo zamaskowanego adresu (np. do poziomu nazwy ulicy, ale już bez numerów mieszkań) z samym tylko faktem posiadania ubezpieczenia medycznego w konkretnej firmie może precyzyjnie identyfikować konkretną osobę! (A najprawdopodobniej nazwa firmy ubezpieczeniowej nie będzie podlegać anonimizacji, ze względu na wymagania biznesowe systemu testowego…)

Oczywiście, jeżeli wiemy, że dane w całej bazie zostały zanonimizowane wówczas wiemy, że wszelkie próby statystycznego zestawiania poszczególnych elementów nie mają wielkiego sensu. Pod warunkiem wszakże, że poziom anonimizacji jest wystarczający. Wydaje się, że można próbować wskazać właściwe poziomy minimalne dla poszczególnych danych. W wielu przypadkach okaże się, że można zwiększyć te poziomy, gdyż zbyt szeroki zakres realnych danych nie będzie potrzebny podczas korzystania z bazy de-identyfikowanej (np. adresy pozostaną prawdziwe do poziomu miast, związanego z testowanymi zapytaniami raportowymi). Losowa de-identyfikacja ma jedną zasadniczą wadę – może tworzyć osobowości, które fragmentarycznie odpowiadają prawdziwym podmiotom – imiona, nazwiska czy numery PESEL nie mają jakiejś gigantycznej zmienności. Jednym z wymogów może być, by wylosowane wartości anonimizacyjne były różne od oryginalnych. Ale już sprawienie by nie były identyczne z innymi w systemie – niekoniecznie. Pewnym problemem mogą okazać się indeksy unikalne (np. na PESEL, czy niepoprawny na kombinacji imienia i nazwiska), które uniemożliwią takie duplikaty – aplikacja powinna być przygotowana na taką ewentualność i albo sprawdzać to z góry (konfiguracja) albo przechwytywać stosowny wyjątek i losować nową wartość.

Wróćmy zatem do listy proponowanej przez HIPPA:

  • Names
  • All geographical identifiers smaller than a state, except for the initial three digits of a zip code if, according to the current publicly available data from the Bureau of the Census: the geographic unit formed by combining all zip codes with the same three initial digits contains more than 20,000 people; and [t]he initial three digits of a zip code for all such geographic units containing 20,000 or fewer people is changed to 000
  • Dates (other than year) directly related to an individual
  • Phone numbers
  • Fax numbers
  • Email addresses
  • Social Security numbers
  • Medical record numbers
  • Health insurance beneficiary numbers
  • Account numbers
  • Certificate/license numbers
  • Vehicle identifiers and serial numbers, including license plate numbers;
  • Device identifiers and serial numbers;
  • Web Uniform Resource Locators (URLs)
  • Internet Protocol (IP) address numbers
  • Biometric identifiers, including finger, retinal and voice prints
  • Full face photographic images and any comparable images
  • Any other unique identifying number, characteristic, or code except the unique code assigned by the investigator to code the data

Omówmy je po kolei:

  1. Nazwy – na pewno będą to nazwy (imiona i nazwiska) osób fizycznych. Nazwy firm i instytucji w większości przypadków także. Ale już zapewne nazwy sprzedawanych przez firmę produktów czy (np. w przypadku danych medycznych) nazwy leków lub terapii – niekoniecznie.
  2. Wskazania geograficzne mniejsze niż stan – czyli przenosząc na polskie realia – pozostawiamy tylko województwo. Oryginalna reguła pozwala na rozdrobnienie większe niż stan pod warunkiem, że dany adres obejmuje przynajmniej 20 000 osób. Wrócę do tego zagadnienia podczas rozważania kwestii statystycznej analizy prawdopodobieństwa re-identyfikacji. Należy też pamiętać, że dane adresowe mogą się pojawiać w wielu kontekstach – nie tylko jako adres zamieszkania konkretnej osoby, ale także jako adres dostawy (także jednorazowy) czy dane adresowe na zdenormalizowanej fakturze.
  3. Daty­ – jeśli data dotyczy osoby, niezmieniony może pozostać jedynie rok. Tylko cóż to znaczy „dotyczy osoby” – na pewno będą to data urodzenia czy zgonu. Ale co z takimi datami jak: data rejestracji w systemie, data złożenia zamówienia, data dostawy? Przypuszczalnie mogą pozostać niezmienione, gdyż są w pewnym stopniu wewnętrznymi identyfikatorami systemu, który je wygenerował.
  4. Numery telefonów – zgodnie z zapisem – w całości, chociaż dla spójności zapewne należałoby je dostosować adresowo do kraju, dla którego są generowane. Oraz – w przypadku rozróżniania typów numerów telefonicznych – do rodzaju numeru: stacjonarny, komórkowy itd. Być może, dla obsługi archiwalnych zbiorów danych także archiwalnych formatów numerów.
  5. Numery faxów – analogicznie jak dla telefonów. Ale przyjmijmy ogólne założenie, że istnieją kraje, które generują te numery inaczej (np. zawsze z pewnej puli numerów początkowych)…
  6. Adresy E-mail – konieczność zamazania jest dość oczywista, jednak wartość zamazania już niekoniecznie. Można oczywiście generować zupełnie losowe adresy na nieistniejących serwerach. Ale może zajść potrzeba testowania np. powiadomień czy subskrypcji. W takiej sytuacji być może zajść potrzeba użycia jednego adresu lub puli konkretnych adresów testowych.
  7. Numery Ubezpieczenia Społecznego – no jasne
  8. Numery dokumentacji medycznej – dość oczywiste
  9. Numery ubezpieczeniowe beneficjentów – po których łatwo dotrzeć do samej osoby ubezpieczonego / ubezpieczającego
  10. Numery kont – głównie bankowych, ale zapewne nie tylko – np. konta abonenckie u operatorów komórkowych / kablówek. Może być trudne do wykonania w przypadku testów systemów, dla których są to identyfikatory wewnętrzne… Gdyż funkcjonalnie są znane jako zewnętrzne.
  11. Numery licencji / certyfikatów – jasna sprawa
  12. Identyfikatory i numery seryjne samochodów – głównie tablice rejestracyjne, ale zapewne także numery VIN, podwozia, silnika czy ubezpieczenia.
  13. Numery seryjne urządzeń – ciekawy punkt; w przypadku danych medycznych może oznaczać numery sprzętu użytego do wykonania zabiegów, więc zapewne dość istotnie pozwala zawęzić pulę osób do re-identyfikacji. Ale już numery sprzedawanego sprzętu? Teoretycznie znając numer sprzętu można by zweryfikować czy dana osoba jest w jego posiadaniu i wówczas sprawdzić inne jej zakupy, ale statystycznie jest to raczej wątpliwe do wykonania i następuje tu raczej identyfikacja wsteczna.
  14. URLe – jakie adresy? Dokumentów dot. Konkretnych osób, postów na blogach, wpisów dokonanych przez konkretne osoby lub na ich temat jak najbardziej. Ale już np. ogólne adresy w sieci np. artykułów, wzorów dokumentów, ustaw, uchwał itp. – już zdecydowanie nie.
  15. Numery IP – podobnie do powyższego – o ile dotyczą konkretnych osób. Kwestią pozostaje np. log dostępu – czy zupełnie go zagmatwać, czy jednak dany numer zastępować zawsze tym samym losowym numerem?
  16. Identyfikatory biometryczne – zapisy funkcyjne (wzorce) lub obrazy odcisków palców, głosu, siatkówki czy układu krwionośnego – no to dość jasna sprawa.
  17. Fotografie – lub inne graficzne reprezentacje ludzkiego wizerunku – oczywiste.
  18. Wszelkie inne unikalne kody – pozwalające na re-identyfikację. Z pominięciem kodów nadanych podczas kodowania (lub wspominanych przeze mnie wcześniej – identyfikatorów wewnętrznych).