Geheimhaltung mit Cell-Key-Methode
Schutz von Einzelangaben in der amtlichen StatistikDie amtliche Statistik schützt die Einzelangaben der Auskunftgebenden. Die Cell-Key-Methode ist ein Verfahren, bei dem dieser Schutz durch eine leichte Veränderung der Ergebnisse gewährleistet wird.
Die Statistischen Ämter des Bundes und der Länder haben den gesetzlichen Auftrag Ergebnisse der amtlichen Statistik bereitzustellen und gleichzeitig die Einzelangaben von Bürgerinnen und Bürgern sowie Unternehmen zu schützen. Um dies zu gewährleisten, kommen in der amtlichen Statistik Geheimhaltungsverfahren zum Einsatz. Die Anforderungen der statistischen Geheimhaltung in der amtlichen Statistik sind in § 16 Bundesstatistikgesetz (BStatG) geregelt.
Es gibt verschiedene Verfahren, mit denen der Schutz von Einzelangaben (d. h. die statistische Geheimhaltung) sichergestellt werden kann. Beim Einsatz eines Geheimhaltungsverfahrens ist wichtig, dass der Informations- und Qualitätsverlust der Ergebnisse möglichst geringgehalten wird. Ein Geheimhaltungsverfahren, dass diese Ansprüche erfüllt, ist die Cell-Key-Methode. Die Cell-Key-Methode wird bei verschiedenen Statistiken (Hochschulstatistik, Bevölkerungsstatistik, Zensus) eingesetzt.
Die statistische Geheimhaltung wird mit dieser Methode gewährleistet, indem jedes Originalergebnis mit Hilfe eines Zufallsmechanismus geringfügig verändert werden kann. Diese leichten Änderungen bewirken, dass aus den veröffentlichten Ergebnissen keine eindeutigen Rückschlüsse auf Originalwerte und damit unter Umständen auf Einzelangaben gezogen werden können.
Die leichte Änderung der Ergebnisse erfolgt so, dass logisch identische Ergebnisse, die in unterschiedlichen Tabellen oder Abfragen enthalten sind, stets exakt gleich verändert werden. Um dabei eine hohe Genauigkeit auf allen Gliederungsebenen (Bund, Länder, Kreise, Gemeinden) sicherzustellen, wird ähnlich wie beim kaufmännischen Runden stets jedes Ergebnis erst exakt berechnet und anschließend einzeln überlagert, d. h. zu einigen Originalwerten wird ein kleiner Wert hinzuaddiert oder abgezogen.
Anstatt bereits überlagerte Einzelfelder aufzuaddieren erfolgt auch für die Summen am Tabellenrand eine separate Überlagerung. Dieses Vorgehen sichert eine hohe Ergebnisqualität, d. h. möglichst geringe Abweichungen vom jeweiligen Originalwert. Dadurch sind die Tabellenzeilen und -spalten nicht mehr alle additiv. Das heißt, die in Randsummen dargestellten Ergebnisse können kleiner oder größer sein als die Summe der zugehörigen ausgewiesenen Innenfeld-Ergebnisse. Dadurch können sich bei der Summierung von Einzelangaben geringfügige Abweichungen in der Endsumme ergeben.
FAQ - Fragen und Antworten
1. Warum statistische Geheimhaltung?
2. Auf welcher Rechtsgrundlage basiert die statistische Geheimhaltung?
3. Welche Anforderungen werden an die statistische Geheimhaltung gestellt?
4. Welche Geheimhaltungsverfahren gibt es in der amtlichen Statistik?
5. Was ist die Cell-Key-Methode?
6. Was ist unter Nicht-Additivität zu verstehen?
7. Wie viele Originalwerte sind noch in einer Tabelle?
8. Wo kann ich weitere Informationen zum Thema Cell-Key-Methode finden?
1. Warum statistische Geheimhaltung?
Um das Grundrecht aller Bürgerinnen und Bürger auf informationelle Selbstbestimmung zu schützen und den Aufgaben der amtlichen Statistik Rechnung zu tragen, dürfen aus Veröffentlichungen keinerlei Rückschlüsse auf die Angaben von Einzelpersonen oder auf andere Einzelfälle möglich sein. Dies wird durch den Einsatz von sogenannten Geheimhaltungsverfahren gewährleistet.
2. Auf welcher Rechtsgrundlage basiert die statistische Geheimhaltung?
Die Geheimhaltung in der amtlichen Statistik ist in § 16 Bundesstatistikgesetz (BStatG) geregelt. Danach sind Einzelangaben über persönliche und sachliche Verhältnisse, die für eine amtliche Statistik gemacht werden, von den jeweils durchführenden statistischen Stellen geheim zu halten. Dies wird auch als Statistikgeheimnis bezeichnet.
3. Welche Anforderungen werden an die statistische Geheimhaltung gestellt?
Generelle Anforderungen an ein Geheimhaltungsverfahren sind eine möglichst hohe Sicherheit gegen Aufdeckung von Einzelangaben bei gleichzeitig möglichst hoher Qualität der Ergebnisse. Das Ziel ist es daher, die Daten möglichst nur geringfügig zu verändern. Weitere Anforderungen sind eine möglichst hohe Nutzerakzeptanz, ein möglichst geringer Umsetzungsaufwand für die statistischen Ämter und Auswertungen sollten ohne Einschränkungen durchführbar sein.
Durch den Einsatz von Datenbanken sollen Geheimhaltungsverfahren heutzutage deshalb auch dezentral und unabhängig anwendbar sein und sowohl auf Länder- als auch auf Bundesebene einheitlich eingesetzt werden.
4. Welche Geheimhaltungsverfahren gibt es in der amtlichen Statistik?
Die amtliche Statistik setzt grundsätzlich zwei unterschiedliche Arten von Geheimhaltungsverfahren ein: Informationsreduzierende Verfahren und datenverändernde Verfahren.
1. Im Rahmen von informationsreduzierenden Verfahren werden:
● einzelne Werte weggelassen oder
● Ausprägungen zusammengefasst, d.h. eine Tabelle wird in ihrer Darstellung vergröbert.
Vorteil: Veröffentlichte Einzelwerte sind hierbei unberührt von Veränderungen, das Verfahren ist sehr transparent.
Nachteil: Informationsreduzierende Verfahren haben den Nachteil, dass differenzierte oder regionale Darstellungen kaum möglich sind. Teilweise müssen viele Ergebnisse/Werte weggelassen werden, um einen wirksamen Schutz vor der Aufdeckung von Einzelangaben zu gewährleisten.
Verfahren: zum Beispiel Zellsperrung
2. Bei datenverändernden Verfahren werden:
● Veränderungen der Daten durch Rundungsverfahren oder
● Veränderungen der Daten durch stochastische (zufällige) Überlagerungen erzeugt.
Vorteil: Datenverändernde Verfahren ermöglichen auch detaillierte, individuelle Auswertungen in Datenbanken. In Auswertungen müssen keine Ergebnisse weggelassen werden, um Einzelangaben zu schützen.
Nachteil: Für den Nutzer besteht die Unsicherheit, ob ein Wert verändert worden ist oder nicht (siehe auch Schutz der Daten). Tabellen sind nicht-additiv (siehe Frage 6).
Datenverändernde Geheimhaltungsverfahren: zum Beispiel das SAFE-Verfahren, die Deterministische Rundung oder auch die Cell-Key-Methode.
5. Was ist die Cell-Key-Methode?
Die Cell-Key-Methode ist ein datenveränderndes Geheimhaltungsverfahren. Bei diesem Verfahren findet eine Veränderung einiger Originalfallzahlen statt, wobei der Informationsverlust und der Verlust der Aussagekraft der Ergebnisse möglichst geringgehalten wird.
Bei dieser Methode wird u. a. festgelegt, wie groß die Abweichung von den Originalwerten sein darf. Ein Teil der Originalwerte bleibt bei diesem Verfahren somit unverändert. Welche Werte das sind, ist nicht erkennbar.
Jeder Originalfallzahl (z. B. in einem Tabellenfeld) ist bei dieser Methode ein fester „Schlüsselwert“ zugeordnet, der auf einem Zufallsmechanismus basiert. Dies sind die sogenannten Cell Keys. Jedem Cell Key ist zudem ein fester sogenannter Überlagerungswert zugeordnet. Dieser gibt an, um welchen Wert die Originalfallzahl im Rahmen des Geheimhaltungsverfahrens verändert wird. Ein Überlagerungswert kann bspw. den Wert -1 oder +2 annehmen, was bedeutet, dass der Originalwert um den Wert -1 bzw. +2 verändert wird. Handelt es sich beim Originalwert also beispielsweise um die Zahl 3 und der dem Cell Key zugeordnete Überlagerungswert lautet -1, lautet die Zahl in der Tabelle 2 (3 (Originalwert) - 1 (Überlagerungswert) = 2 (Veränderte Zahl).
6. Was ist unter Nicht-Additivität zu verstehen?
Wenn Daten, die mit der Cell-Key-Methode geheim gehalten worden sind in einer Tabelle dargestellt werden, ergibt sich bei der Aufsummierung der Zeilen oder Spalten in der Tabelle nicht immer die veröffentlichte Gesamtzahl. Es kann zu Abweichungen in den Summen kommen. Auch Verhältniszahlen (z. B. Anteile oder Mittelwerte) werden dadurch verändert. In bestimmten Statistiken kann dies in Einzelfällen auch zu Anteilen von größer als 100% führen.
Das folgende Beispiel veranschaulicht dies: Der in der oberen Tabellenzeile ausgewiesene Insgesamt-Wert über alle Altersklassen für die Ausprägung „Männlich“ beträgt 175. Werden die zugehörigen Tabellenfelder jedoch separat addiert, ergibt deren Summe 173 (= 20 + 31 + 32 + 40 + 50). Auch bei den spaltenweise ausgewiesenen Insgesamt-Werten lässt sich diese Besonderheit beobachten. Der Insgesamt-Wert für die komplette Tabelle ist mit 371 ausgewiesen. Werden die Werte für die Ausprägungen „Männlich“ und „Weiblich“ jedoch separat addiert, ergibt deren Summe 372 (= 175 + 197). Auch bei einer Summation über die Insgesamt-Werte aller Altersklassen (47 + 56 + 71 + 86 + 109 = 369) sowie bei einer Summation über alle Einzelwerte der Tabelle (20 + 31 + 32 + 40 + 50 + 25 + 25 + 40 + 45 + 60 = 368) ergibt sich jeweils eine leichte Abweichung zum ausgewiesenen Insgesamt-Wert.
Geschlecht | Insgesamt | Alter | ||||
Unter 18 | 18-29 | 30-49 | 50-64 | 65 und älter | ||
Anzahl | Anzahl | Anzahl | Anzahl | Anzahl | Anzahl | |
Männlich | 175 | 20 | 31 | 32 | 40 | 50 |
Weiblich | 197 | 25 | 25 | 40 | 45 | 60 |
Insgesamt | 371 | 47 | 56 | 71 | 86 | 109 |
Beispieltabelle: Fallzahlen nach Geschlecht und Alter
7. Wie viele Originalwerte sind noch in einer Tabelle?
Es ist in der Ergebnispräsentation in der Tabelle nicht mehr erkennbar, welche Werte verändert wurden und welche nicht. Wie viele Originalwerte in einer Tabelle noch enthalten sind, hängt von den gesetzten Parametern in den Geheimhaltungsverfahren der Statistik und vom Zufall ab. Weitere Informationen siehe Frage 8.