Adatvédelemről és anonimizálásról

A 20. Század Hangja Archívum kifejezetten interjús kutatások anyagait gyűjti és teszi elérhetővé regisztrált felhasználók számára. A hozzáférés szintjét egyrészt a letétbe helyező kutatók szándékai szerint beállított korlátozások, másrészt maguknak a letétbe helyezett dokumentumoknak a jellegéből adódó adatvédelmi szempontok határozzák meg. A donorok kéréseinek és a magánélet védelmét szolgáló elveknek megfelelő feltételrendszer kialakításáért és gyakorlati megvalósításáért a KDK felel.

Több kérdést kell mérlegelnünk annak eldöntéséhez, hogy milyen adatvédelmi szabályok, megfontolások érvényesek egy-egy gyűjteményre vagy egyazon gyűjteményen belül az egyes dokumentumokra, interjúkra. Természetesen az általános szabályozásokat, mint a GDPR, illetve az európai és hazai szabályozást implementáló belső intézményi rendelkezéseink tekintjük irányadónak. A megfelelő adatvédelmi beállításokhoz ugyanakkor meg kell vizsgálnunk az egyes esetekben konkrétan felmerülő kockázatokat. A fő cél mindenképpen az interjúalany és az interjúban említett más személyek védelme azáltal, hogy ne derülhessen ki a személyazonosságuk. A kívánatos védettség elérési módjának és mértékének megállapításához, valamint a megoldások megtervezéséhez ugyanakkor egy sor körülményt érdemes figyelembe venni.

Egyrészt lényeges a kutatás témája, amely lehet látszólag semleges, vagy éppen érezhetően kényes adatvédelmi szempontból. Erős Ferenc és Kovács András zsidó identitás vizsgálatuk során második generációs holokauszt túlélőkkel készítettek életútinterjúkat. A megkérdezettekről tehát eleve tudni, hogy egy történelmileg üldözötthöz kisebbséghez tartoznak. Bár ők a kutatók jóvoltából nem saját névvel szerepelnek, hanem kódjellel vannak feltüntetve a dokumentumcímben, az interjúkban számos olyan tényt említenek, amelyekből kikövetkeztethető a személyazonosságuk. Emellett más, gyakran szintén zsidó származású személyekről is beszélnek, akiknek a kilétét ugyancsak felismerhetetlenné kell tenni.

Nyilvánvalóan számít, hogy hétköznapi emberről vagy közszereplőről, közismert személyről, például politikusról, híres tudósról, művészről tesznek említést egy-egy rögzített beszélgetésben. Míg az egyszeri ember védendő, ugyanakkor kilétének megállapíthatatlanná tételéhez elég néhány adatot (nevét, lakhelyét, szakmájának megnevezését stb.) módosítani, addig közszereplőknél általában nem szükséges ilyen óvintézkedéseket foganosítani, így az se gond, hogy nem csak személyes adatok és azok összessége, kombinációja, hanem olykor egy-egy történet alapján is beazonosíthatók.

Figyelembe veendő tényező továbbá az adatfelvétel ideje. Az Erős kutatás az 1980-as évek elején zajlott, a megkérdezettek jó eséllyel életben vannak, személyes jogaik védendők. Mivel ráadásul a kutatók úgynevezett hólabda módszerrel vettek mintát — vagyis az interjúalanyok ismeretségi köréből toborozták az új résztvevőket — egy-egy adatközlő személyazonosságának kitudódása többek “lelepleződését” vonhatja maga után.

A KDK munkatársai olyan anonimizálási módszert dolgoztak ki, amelynek segítségével az interjúszövegekben az adatok kitakarása minimális információvesztéssel jár. Az interjúkban szereplő védendő személyek beazonosítására alkalmas tulajdonneveket és egyéb szövegrészeket kódoljuk, ugyanakkor hézagpótlás gyanánt a kódjelek után zárójelben közöljük a történetek értelmezését segítő körülírásokat. Így például a földrajzi nevek vagy a foglalkozások esetében megadjuk az egy taxonómiai szinttel feljebbi kategóriát, azaz a specifikus adatokat (amelyek révén felismerhetővé válhat valaki) általánosabbakkal helyettesítjük. Az információveszteség mérséklésének másik eszköze, hogy a törölt szövegrészeket és az azokat helyettesítő kódjeleket táblázatba foglaljuk. Ennek köszönhetően az egyazon gyűjteményen belül előforduló azonos megnevezésekre ugyanazt a kódjelet tudjuk alkalmazni, vagyis megmaradnak az interjúk értelmezéséhez lényeges összefüggések. A kódtáblázat vezetésének másik előnye, hogy szükség esetén bármelyik kód könnyen visszafejthető az eredeti szövegrészre.

Alapvető célunk, hogy csak a szükséges minimumot kódoljuk. Azaz nem iktatunk ki automatikusan minden tulajdonnevet vagy egyéb, személyekhez köthető konkrétumot az interjúszövegekből. Egyedül azokat a dátumokat helyettesítjük hozzávetőleges időmegjelöléssel, amelyek révén könnyen azonosítható egy személy, például azokat, amelyek az okmányokban is szereplő életrajzi tények időpontját jelölik. Csak és kizárólag olyankor anonimizáljuk tehát az adatokat, ha azok önmagukban vagy egymással kombinálva nagy valószínűséggel hozzájárulhatnak az interjúkban szereplők felismeréséhez.

Anonimizálási módszereinket és irányelveinket a gyakornoki programunk keretében fejlesztettünk ki a KDK korábbi gyakorlatából kiindulva. Az eredményt átfogó kézikönyvbe foglaltuk a műveletek megkönnyítésére, melyeket gyakran külső munkatársak végeznek. A következő lépésben más interjúarchívumok munkatársaival folytatott konzultációk és együttműködések nyomán részben automatizált, azaz géppel segített anonimizálási technikákat fogunk kidolgozni. Ettől a fejlesztéstől a fokozottabb konzisztenciát, és főleg azt várjuk, hogy az eddiginél lényegesen nagyobb volumenben tudjuk majd feldolgozni, és mielőbb elérhetővé tenni az interjús anyagainkat.