市场

为了找到其拥有的250万个文件,ICIJ必须在绘制任何可利用的信息之前进行预处理

因为与维基解密不同,文件的结构都是以相同的方式呈现的,文档在这里是多个,处理无法自动化

已经为ICIJ专门使用或设计了几个程序

字符识别软件(OCR)以数字方式转换图像,ID和其他扫描文档中包含的文本

发现的数据库因此被重构,然后被利用

例如,专业的自由文本检索(FTR)软件可以搜索所有文件,隔离专有名称和/或地址

这些程序检测文件中的实体 - 看起来像一个正确的名称和地址 - 并对它们编制索引以加快搜索速度

此外,还有几种特定的数据挖掘程序,即数据挖掘工具

开发了一个用于关联名称和地址以及删除重复项的脚本以及另一个用于自动将国家/地区分配给扫描文件的脚本

“耐心”这些文件中的手动选择因此允许根据国家分发它们,共有122 000家上市离岸公司和13万条关于持有,控制或隐藏这些公司背后的人的条目此信息是传达给该行动的媒体合作伙伴,每个合作伙伴都有与其国家有关的数据

最初,在基础中导航,称为OMET,并不简单

对于记者来说,它需要ICIJ人员的帮助

由于合作伙伴数量的增加,在不到两周的时间内开发了一个名为Interdata的专用接口

合作伙伴标题的调查员可以搜索和下载这些文档

安全界面向记者开放:他们进行了超过28,000次搜索,下载了超过53,000份文件

搜索不会简化

名称很少出现在屏幕上,但这些文件可以耐心地重新组合避税天堂的各种复杂蒙太奇的网络,公开未知

“这个项目的基本教训是耐心和坚持不懈(......)但是,当这些数据公布了避税天堂的新视野时,耐心会得到回报”,ICIJ总结道

>>我们关于“海上泄漏”的所有文章