Care este tehnologia și soluția de mascare a datelor din Network Packet Broker?

1. Conceptul de mascare a datelor

Mascarea datelor este cunoscută și sub denumirea de mascare a datelor. Este o metodă tehnică de conversie, modificare sau acoperire a datelor sensibile, cum ar fi numărul de telefon mobil, numărul cardului bancar și alte informații, atunci când există reguli și politici de mascare. Această tehnică este utilizată în principal pentru a preveni utilizarea directă a datelor sensibile în medii nesigure.

Principiul mascării datelor: Mascarea datelor ar trebui să mențină caracteristicile originale ale datelor, regulile de afaceri și relevanța datelor pentru a se asigura că dezvoltarea, testarea și analiza ulterioară a datelor nu vor fi afectate de mascare. Asigurați consecvența și validitatea datelor înainte și după mascare.

2. Clasificarea mascării datelor

Mascarea datelor poate fi împărțită în mascare statică a datelor (SDM) și mascare dinamică a datelor (DDM).

Mascare statică a datelor (SDM)Mascarea statică a datelor necesită crearea unei noi baze de date pentru mediul de producție, pentru izolarea de mediul de producție. Datele sensibile sunt extrase din baza de date de producție și apoi stocate în baza de date pentru mediul de producție. În acest fel, datele desensibilizate sunt izolate de mediul de producție, ceea ce satisface nevoile afacerii și asigură securitatea datelor de producție.

SDM

Mascare dinamică a datelor (DDM)Este utilizat în general în mediul de producție pentru a desensibiliza datele sensibile în timp real. Uneori, sunt necesare niveluri diferite de mascare pentru a citi aceleași date sensibile în situații diferite. De exemplu, roluri și permisiuni diferite pot implementa scheme de mascare diferite.

DDM

Aplicație de raportare a datelor și mascare a produselor de date

Astfel de scenarii includ în principal produse sau panouri publicitare interne de monitorizare a datelor, produse de date pentru servicii externe și rapoarte bazate pe analiza datelor, cum ar fi rapoartele de afaceri și revizuirile de proiecte.

mascarea produsului de raportare a datelor

3. Soluție de mascare a datelor

Schemele comune de mascare a datelor includ: invalidarea, valoarea aleatorie, înlocuirea datelor, criptarea simetrică, valoarea medie, offset și rotunjire etc.

InvalidareInvalidarea se referă la criptarea, trunchierea sau ascunderea datelor sensibile. Această schemă înlocuiește de obicei datele reale cu simboluri speciale (cum ar fi *). Operațiunea este simplă, dar utilizatorii nu pot cunoaște formatul datelor originale, ceea ce poate afecta aplicațiile de date ulterioare.

Valoare aleatorieValoarea aleatorie se referă la înlocuirea aleatorie a datelor sensibile (numerele înlocuiesc cifrele, literele înlocuiesc literele, iar caracterele înlocuiesc caracterele). Această metodă de mascare va asigura într-o anumită măsură formatul datelor sensibile și va facilita aplicarea ulterioară a datelor. Dicționarele de mascare pot fi necesare pentru unele cuvinte semnificative, cum ar fi numele de persoane și locuri.

Înlocuirea datelorÎnlocuirea datelor este similară cu mascarea valorilor nule și aleatorii, cu excepția faptului că, în loc să se utilizeze caractere speciale sau valori aleatorii, datele de mascare sunt înlocuite cu o valoare specifică.

Criptare simetricăCriptarea simetrică este o metodă specială de mascare reversibilă. Criptează datele sensibile prin chei și algoritmi de criptare. Formatul textului cifrat este consistent cu datele originale în reguli logice.

MedieSchema mediei este adesea utilizată în scenariile statistice. Pentru datele numerice, calculăm mai întâi media lor, apoi distribuim aleatoriu valorile desensibilizate în jurul mediei, menținând astfel constantă suma datelor.

Decalaj și rotunjireAceastă metodă modifică datele digitale prin deplasare aleatorie. Rotunjirea offset-ului asigură autenticitatea aproximativă a intervalului, menținând în același timp securitatea datelor, care sunt mai apropiate de datele reale decât schemele anterioare și are o importanță deosebită în scenariul analizei big data.

ML-NPB-5660-数据脱敏

Modelul recomandat"ML-NPB-5660„pentru mascarea datelor

4. Tehnici de mascare a datelor utilizate în mod obișnuit

(1). Tehnici statistice

Eșantionarea datelor și agregarea datelor

- Eșantionarea datelor: Analiza și evaluarea setului de date original prin selectarea unui subset reprezentativ al setului de date este o metodă importantă pentru îmbunătățirea eficacității tehnicilor de de-identificare.

- Agregarea datelor: Fiind o colecție de tehnici statistice (cum ar fi însumarea, numărarea, calcularea mediei, calcularea maximului și minimului) aplicate atributelor din microdate, rezultatul este reprezentativ pentru toate înregistrările din setul de date original.

(2). Criptografie

Criptografia este o metodă comună de desensibilizare sau de sporire a eficacității desensibilizării. Diferite tipuri de algoritmi de criptare pot obține diferite efecte de desensibilizare.

- Criptare deterministă: O criptare simetrică nealeatorie. De obicei, procesează date de identificare și poate decripta și restaura textul cifrat la ID-ul original atunci când este necesar, dar cheia trebuie protejată corespunzător.

- Criptare ireversibilă: Funcția hash este utilizată pentru procesarea datelor, care sunt de obicei folosite pentru datele de identificare. Acestea nu pot fi decriptate direct, iar relația de mapare trebuie salvată. În plus, datorită caracteristicilor funcției hash, pot apărea coliziuni de date.

- Criptare homomorfă: Se utilizează algoritmul homomorfic cifrat. Caracteristica sa este că rezultatul operației cifrate este același cu cel al operației text clar după decriptare. Prin urmare, este utilizat în mod obișnuit pentru procesarea câmpurilor numerice, dar nu este utilizat pe scară largă din motive de performanță.

(3). Tehnologia sistemului

Tehnologia de suprimare șterge sau protejează elementele de date care nu îndeplinesc cerințele de protecție a confidențialității, dar nu le publică.

- Mascare: se referă la cea mai comună metodă de desensibilizare pentru a masca valoarea atributului, cum ar fi numărul adversarului, marcarea cărții de identitate cu un asterisc sau trunchierea adresei.

- Suprimare locală: se referă la procesul de ștergere a valorilor atributelor specifice (coloane), eliminarea câmpurilor de date neesențiale;

- Suprimarea înregistrărilor: se referă la procesul de ștergere a unor înregistrări (rânduri) specifice, ștergerea înregistrărilor de date neesențiale.

(4). Tehnologia pseudonimelor

Pseudomanning-ul este o tehnică de anonimizare care folosește un pseudonim pentru a înlocui un identificator direct (sau alt identificator sensibil). Tehnicile de pseudonim creează identificatori unici pentru fiecare subiect de informații, în loc de identificatori direcți sau sensibili.

- Poate genera valori aleatorii independent pentru a corespunde ID-ului original, poate salva tabelul de mapare și poate controla strict accesul la tabelul de mapare.

- De asemenea, puteți utiliza criptarea pentru a produce pseudonime, dar trebuie să păstrați cheia de decriptare în mod corespunzător;

Această tehnologie este utilizată pe scară largă în cazul unui număr mare de utilizatori de date independenți, cum ar fi OpenID în scenariul platformei deschise, unde diferiți dezvoltatori obțin OpenID-uri diferite pentru același utilizator.

(5). Tehnici de generalizare

Tehnica de generalizare se referă la o tehnică de anonimizare care reduce granularitatea atributelor selectate dintr-un set de date și oferă o descriere mai generală și abstractă a datelor. Tehnologia de generalizare este ușor de implementat și poate proteja autenticitatea datelor la nivel de înregistrare. Este frecvent utilizată în produsele de date sau în rapoartele de date.

- Rotunjire: implică selectarea unei baze de rotunjire pentru atributul selectat, cum ar fi rotunjirea ascendentă sau descendentă, rezultând rezultate 100, 500, 1K și 10K

- Tehnici de codare de sus și de jos: Înlocuirea valorilor de peste (sau sub) prag cu un prag care reprezintă nivelul superior (sau inferior), rezultând un rezultat „peste X” sau „sub X”.

(6). Tehnici de randomizare

Ca o tehnică de de-identificare, tehnologia de randomizare se referă la modificarea valorii unui atribut prin randomizare, astfel încât valoarea după randomizare să fie diferită de valoarea reală originală. Acest proces reduce capacitatea unui atacator de a deriva valoarea unui atribut din alte valori ale atributelor din aceeași înregistrare de date, dar afectează autenticitatea datelor rezultate, ceea ce este comun în cazul datelor de testare a producției.


Data publicării: 27 septembrie 2022