1. Conceptul de Mascare a datelor
Mascarea datelor este cunoscută și sub denumirea de mascare a datelor. Este o metodă tehnică de a converti, modifica sau acoperi date sensibile, cum ar fi numărul de telefon mobil, numărul cardului bancar și alte informații atunci când am dat reguli și politici de mascare. Această tehnică este utilizată în primul rând pentru a preveni utilizarea directă a datelor sensibile în medii nesigure.
Principiul mascării datelor: Mascarea datelor ar trebui să mențină caracteristicile originale ale datelor, regulile de afaceri și relevanța datelor pentru a se asigura că dezvoltarea ulterioară, testarea și analiza datelor nu vor fi afectate de mascare. Asigurați consistența și validitatea datelor înainte și după mascare.
2. Clasificarea Data Masking
Mascarea datelor poate fi împărțită în mascarea datelor statice (SDM) și mascarea datelor dinamice (DDM).
Mascarea datelor statice (SDM): Mascarea datelor statice necesită înființarea unei noi baze de date de mediu non-producție pentru izolarea de mediul de producție. Datele sensibile sunt extrase din baza de date de producție și apoi stocate în baza de date non-producție. În acest fel, datele desensibilizate sunt izolate de mediul de producție, care răspunde nevoilor afacerii și asigură securitatea datelor de producție.
Mascare dinamică a datelor (DDM): Este utilizat în general în mediul de producție pentru a desensibiliza datele sensibile în timp real. Uneori, sunt necesare niveluri diferite de mascare pentru a citi aceleași date sensibile în diferite situații. De exemplu, diferite roluri și permisiuni pot implementa diferite scheme de mascare.
Aplicație de raportare a datelor și de mascare a produselor de date
Astfel de scenarii includ în principal produse de monitorizare a datelor interne sau panouri publicitare, produse de date de servicii externe și rapoarte bazate pe analiza datelor, cum ar fi rapoartele de afaceri și revizuirea proiectelor.
3. Soluție de mascare a datelor
Schemele comune de mascare a datelor includ: invalidarea, valoarea aleatorie, înlocuirea datelor, criptarea simetrică, valoarea medie, offset și rotunjire etc.
Invalidare: Invalidarea se referă la criptarea, trunchierea sau ascunderea datelor sensibile. Această schemă înlocuiește de obicei datele reale cu simboluri speciale (cum ar fi *). Operația este simplă, dar utilizatorii nu pot cunoaște formatul datelor originale, ceea ce poate afecta aplicațiile de date ulterioare.
Valoare aleatorie: Valoarea aleatorie se referă la înlocuirea aleatorie a datelor sensibile (numerele înlocuiesc cifrele, literele înlocuiesc literele, iar caracterele înlocuiesc caracterele). Această metodă de mascare va asigura într-o anumită măsură formatul datelor sensibile și va facilita aplicarea ulterioară a datelor. Dicționarele de mascare pot fi necesare pentru unele cuvinte semnificative, cum ar fi numele de persoane și locuri.
Înlocuirea datelor: Înlocuirea datelor este similară cu mascarea valorilor nule și aleatorii, cu excepția faptului că, în loc să se utilizeze caractere speciale sau valori aleatoare, datele de mascare sunt înlocuite cu o anumită valoare.
Criptare simetrică: Criptarea simetrică este o metodă specială de mascare reversibilă. Criptează datele sensibile prin chei și algoritmi de criptare. Formatul de text cifrat este în concordanță cu datele originale din regulile logice.
Medie: Schema medie este adesea folosită în scenariile statistice. Pentru datele numerice, mai întâi le calculăm media, iar apoi distribuim aleatoriu valorile desensibilizate în jurul mediei, păstrând astfel suma datelor constantă.
Offset și rotunjire: Această metodă modifică datele digitale prin schimbare aleatorie. Rotunjirea offset asigură autenticitatea aproximativă a intervalului, menținând în același timp securitatea datelor, care este mai aproape de datele reale decât schemele anterioare și are o mare importanță în scenariul analizei big data.
Modelul recomandat"ML-NPB-5660" pentru Mascarea datelor
4. Tehnici de mascare a datelor utilizate în mod obișnuit
(1). Tehnici statistice
Eșantionarea datelor și agregarea datelor
- Eșantionarea datelor: analiza și evaluarea setului de date inițial prin selectarea unui subset reprezentativ al setului de date este o metodă importantă pentru a îmbunătăți eficacitatea tehnicilor de deidentificare.
- Agregarea datelor: Ca o colecție de tehnici statistice (cum ar fi însumarea, numărarea, medierea, maximul și minim) aplicate atributelor din microdate, rezultatul este reprezentativ pentru toate înregistrările din setul de date original.
(2). Criptografie
Criptografia este o metodă comună de desensibilizare sau de îmbunătățire a eficacității desensibilizării. Diferite tipuri de algoritmi de criptare pot obține diferite efecte de desensibilizare.
- Criptare deterministă: O criptare simetrică non-aleatorie. De obicei, procesează datele de identificare și poate decripta și restaura textul cifrat la ID-ul original atunci când este necesar, dar cheia trebuie protejată corespunzător.
- Criptare ireversibilă: funcția hash este utilizată pentru procesarea datelor, care este de obicei folosită pentru datele de identificare. Nu poate fi decriptat direct și relația de cartografiere trebuie salvată. În plus, datorită caracteristicii funcției hash, poate apărea coliziunea datelor.
- Criptare homomorfă: se utilizează algoritmul homomorf al textului cifrat. Caracteristica sa este că rezultatul operațiunii cu text cifrat este același cu cel al operațiunii cu text simplu după decriptare. Prin urmare, este folosit în mod obișnuit pentru a procesa câmpuri numerice, dar nu este utilizat pe scară largă din motive de performanță.
(3). Tehnologia sistemului
Tehnologia de suprimare șterge sau protejează elementele de date care nu îndeplinesc protecția vieții private, dar nu le publică.
- Mascare: se referă la cea mai comună metodă de desensibilizare pentru a masca valoarea atributului, cum ar fi numărul adversarului, cartea de identitate este marcată cu un asterisc sau adresa este trunchiată.
- Suprimarea locală: se referă la procesul de ștergere a valorilor de atribute specifice (coloane), eliminarea câmpurilor de date neesențiale;
- Suprimarea înregistrărilor: se referă la procesul de ștergere a înregistrărilor (rândurilor) specifice, ștergerea înregistrărilor de date neesențiale.
(4). Pseudonim Tehnologie
Pseudomanning este o tehnică de de-identificare care folosește un pseudonim pentru a înlocui un identificator direct (sau alt identificator sensibil). Tehnicile de pseudonim creează identificatori unici pentru fiecare subiect de informare individual, în loc de identificatori direcți sau sensibili.
- Poate genera valori aleatoare în mod independent pentru a corespunde ID-ului original, poate salva tabelul de mapare și poate controla strict accesul la tabelul de mapare.
- De asemenea, puteți utiliza criptarea pentru a produce pseudonime, dar trebuie să păstrați corect cheia de decriptare;
Această tehnologie este utilizată pe scară largă în cazul unui număr mare de utilizatori independenți de date, cum ar fi OpenID în scenariul platformei deschise, în care diferiți dezvoltatori obțin Openid-uri diferite pentru același utilizator.
(5). Tehnici de generalizare
Tehnica de generalizare se referă la o tehnică de de-identificare care reduce granularitatea atributelor selectate dintr-un set de date și oferă o descriere mai generală și mai abstractă a datelor. Tehnologia de generalizare este ușor de implementat și poate proteja autenticitatea datelor la nivel de înregistrare. Este utilizat în mod obișnuit în produsele de date sau rapoartele de date.
- Rotunjire: implică selectarea unei baze de rotunjire pentru atributul selectat, cum ar fi criminalistica în sus sau în jos, cu rezultate 100, 500, 1K și 10K
- Tehnici de codare de sus și de jos: Înlocuiți valorile de deasupra (sau dedesubt) pragului cu un prag reprezentând nivelul de sus (sau de jos), obținând un rezultat „peste X” sau „sub X”
(6). Tehnici de randomizare
Ca un fel de tehnică de de-identificare, tehnologia de randomizare se referă la modificarea valorii unui atribut prin randomizare, astfel încât valoarea după randomizare să fie diferită de valoarea reală inițială. Acest proces reduce capacitatea unui atacator de a deriva o valoare de atribut din alte valori de atribut din aceeași înregistrare de date, dar afectează autenticitatea datelor rezultate, care este comună cu datele de testare de producție.
Ora postării: 27-sept-2022