in Allgemein, Big Data

Ein Konzern, ein substantielles anonymes Schreiben über Bestechungen durch zahlreiche Manager, Compliance, Legal und Internal Audit arbeiten mit Rechtsanwälten auf drei Kontinenten mit dem Ziel in 1,6 TB Email Daten – 44.250.000 Emails – die Anschuldigungen zu prüfen. Zeit: 1 Monat, Machbarkeit: unmöglich?

Weltweit in Banken, Versicherungen und bei Behörden läuft eine Software, die vor bereits 25 Jahren in England entwickelt wurde um Netzwerke organisierter Kriminalität und von Terroristen schnell und effizient zu analysieren und zu bekämpfen.

Dafür ist es erforderlich die Beziehungen zwischen Personen, Ereignissen, Telefonaten, Emails, Bankkonten, Geldflüssen, Vermögensgegenständen übersichtlich UND dynamisch darstellen zu können. Diese Software (nennen wir sie „ANB“) ist weltweiter Marktführer auf dem Gebiet analytischer Software. Andere Produkte sind entweder mangels Entwicklungszeit weit abgeschlagen oder der Mitentwicklung durch nationale Nachrichtendienste in Europa praktisch nicht einsetzbar.

44.250.000 Emails in 1 Monat? Die forensischen Spezialisten die ANB selber nochmals weiter entwickelt haben, haben das Unmögliche möglich gemacht. Mithilfe von forensischer Software wurde das Datenvolumen dedupliziert und mit Einsatz von predictive Coding auf rund 30% des Originalvolumens reduziert.

Deduplizieren bedeutet sämtliche mehrfach vorhandenen Emails zu löschen. Predictive Coding verwendet eine Technologie, die Daten nicht nur indexiert sondern auch die Korrelation von Begriffen, die innerhalb der Dateien vorkommen darstellt und auf Basis von angelernten Wissensmodellen „selbstständig denkt“.  Dadurch findet man Begriffe und Zusammenhänge innerhalb Minuten, anstelle von Wochen die man beim „händischen“ Lesen benötigen würde. Die Grundlage für dieses System, ist eineTechnologie, die in der Lage war, Datenbanken so schnell zu indexieren und durchsuchen, dass er als einziger „Teilnehmer“ mit künstlicher Intelligenz zweimal die berühmte Rateshow „Jeopardy“ gewonnen hat. Durch dieses System können innerhalb von Stunden – bei Mengen von 1,5 TB Tagen – riesige Volumen von Daten bzw. Emails qualifiziert aussortiert und entfernt bzw. als relevant eingestuft werden.

In unserem Beispielfall wurden nach rund zwei Wochen reiner Prozessorarbeit, um alle technischen Prozesse ablaufen zu lassen, drei virtuelle Datenräume (einer je Kontinent) aufgesetzt. Die Datenräume basieren auf einer Plattform, die wir verwenden um einen effizienten und zuverlässigen Datenraum für legal reviews zu schaffen. Da es sich um eine Open-Source-Plattform handelt, entstehen keine Kosten für Datenvolumen, die im Datenraum gespeichert werden. Dies reduzierte die Forensikkosten alleine um rd. 25% gegenüber vergleichbaren Systemen.

Die Review Teams der Anwälte konnten somit unabhängig voneinander mit ihren jeweiligen Suchpräferenzen dieselben Datensätze durchsuchen und innerhalb von wenigen Tagen sämtliche Emails identifizieren, die Ihnen für die vorliegenden Sachverhalte relevant erschienen.

Soweit so gut. Das Problem dabei war, es blieben immer noch rd 11.000 Emails über, die von den Reviewteams als potentiell relevant bzw. relevant eingestuft wurden. Zu diesem Zeitpunkt ist den Teams jedoch noch nicht bekannt, in welchem zeitlichen, personellen, örtlichen und projektbezogenen Zusammenhang diese Emails stehen. Erst durch die Analyse wer wann an wen in Zusammenhang mit welchem Auftrag und an welche Kunden Emails gesandt hat ermöglicht es einen Sachverhalt chronologisch korrekt, rechtlich einwandfrei und die Verdächtigen identifizierend festzustellen.

Somit wurden sämtliche Emails der Verdächtigen in die Datenbank von ANB eingespielt. Die visuelle Auswertung sämtlicher als relevant eingestufter Emails eines verdächtigen Accounts sieht dann einmal so aus:

big-data-problem1

Der rote Punkt bezeichnet die verdächtige Person, der grüne Punkt ein im Verhältnis dazu dargestelltes zweites Account mit dem am meisten kommuniziert wurde.

Der Einsatz des dynamischen Systems von ANB erlaubte es sämtliche Accounts wie in Abbildung 1 zu visualisieren, was natürlich aufgrund der Menge der Emails auf normaler Bildschirmgröße nicht mehr darstellbar ist.

In weiterer Folge hat sich die Fragestellung ergeben, wie bestimmte Verdächtige zu einem Sachverhalt kommuniziert haben. Dafür war es nun erforderlich den Kommunikationspfaden der Verdächtigen zu folgen. Händisch hätte das wiederum wochenlanges Lesen von Emails und händische grafische Aufbereitung bedeutet, bis man dies schließlich zB auf Power Point hätte darstellen können.

ANB erlaubt es mit Filtern und Suchmöglichkeiten sämtliche Kommunikationen zu prüfen und findet Kommunikationspfade selber und stellt diese dynamisch dar. In Abbildung 2 sieht man die Auflösung eines solchen Kommunikationspfades zwischen Verdächtigen und allen mit diesen in Zusammenhang stehenden relevanten Emails:

big-data-problem2

In einer weiteren dynamischen Funktion der Software können nun sämtliche Emails auf einer Zeitschiene dargestellt werden, die bis auf 1/10 Sekunde darstellbar ist. So können zB verdächtige Kommunikationen in zeitlichen Kontext mit Insider Trading oder High Speed Trading von Börsenaufsichten perfekt dargestellt und bewiesen werden.

In vorliegendem Beispielfall war es die Aufgabe zu jedem Sachverhalt die Kommunikatoren zu identifizieren, deren Kommunikationsmuster darzustellen und die verdächtigen Emails im richtigen materiellen und zeitlichen Kontext mit den Verdächtigen darzustellen. Dies muss ebenfalls nicht händisch gemacht werden, sondern ANB macht dies im Rahmen einer sogenannten künstlich erschaffenen „Umwelt“ in welcher die Daten analysiert werden.

Beispielhaft zeigt Abbildung 3 einen solchen Sachverhalt, der die sachverhaltrelevanten Emails zwischen den drei Verdächtigen (die drei in der Mitte rot, violett und rot) eindeutig belegt aber plötzlich auch vier weitere Personen (blau und gelb – oben und unten in der Grafik) identifiziert, die ebenfalls involviert waren und die man bisher nicht verdächtigt und identifiziert hatte. Dies wäre nur durch „händisches“ Lesen und analysieren von mehreren Tausend Emails unmöglich gewesen:

big-data-problem3

Somit war es möglich durch den Einsatz von ANB und dessen hochqualifiziertem Analysetool das Unmögliche möglich zu machen und innerhalb von nur 1 Monat 44.250.000 Emails forensisch so aufzuarbeiten, dass sämtliche Sachverhalte belegt und entsprechende rechtliche Konsequenzen gezogen werden konnten.

Recent Posts

Kommentieren

Suchbegriff eingeben und Enter klicken