博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据开放 数据集_开放数据集需要强大的隐私保护
阅读量:2524 次
发布时间:2019-05-11

本文共 2076 字,大约阅读时间需要 6 分钟。

数据开放 数据集

机器学习系统和其他算法越来越依赖于等网站上的开放数据集来运行数据科学应用程序并训练机器学习模型。 在一个特定的工作领域并非如此,从到再到 。

当下载包含成千上万,数十万甚至数百万个数据点的巨大文件时,很容易忘记每条信息背后的个人。 但是,人类却是这些数据集的幕后黑手,随着越来越多的数据由私有和公共机构公开和公开发布(无论是协助研究,遵守披露协议等),我们需要强大的隐私保护来保护人们的信息包含在数据集中,无论同意与否。

一段时间以来,所谓的“匿名化”是向数据集添加隐私保护的答案。 在此过程中,例如,一个人的名字将被替换为一个随机数,而与此人相关联的其余属性将保持不变。 完全设置好吗? 错误。

匿名化不是确保保护较大数据集中的个人数据的可靠方法。 正如安全专家 ,这种方法存在“固有的安全问题”。 思维有缺陷,认为简单地将名称与数字字符串交换会删除所有可能的标识符或指向个人的链接。 实际案例研究证明了这一事实。

Netflix在2006年发布了由50万客户创建的1000万部电影排行榜,以鼓励人们开发卓越的推荐系统。 德克萨斯大学奥斯汀分校的研究人员能够通过将Netflix的数据点链接到Internet电影数据库(IMDb),“个人博客,Google搜索等”上的“辅助信息”,来进行 。 大约在同一时间,AOL在线发布了2000万个网络搜索,此后, 《纽约时报》 进行了以类似方式识别出数字背后的个人。 您可以在线找到其他示例。

这些所谓的使研究人员和恶意攻击者可以发现谁是面具背后的人,可以说是在开放数据集中-将看似匿名或随机采样的信息链接到特定人员。 为了解决这个问题, 涉及向数据库添加“噪音”)是计算机科学中的新兴标准,旨在保护个人的隐私,同时仍保持数据集的相对效用。 当开放数据集涉及敏感的个人信息时,缺乏这种保护尤其令人担忧。

例如, 提供了数千个数据集的易于搜索的索引。 是否需要有关 ? ? 都在那里。

随着城市使用机器学习系统和其他算法来增强其现有的管理功能并建立新的功能,甚至城市也在在线发布数据:识别道路上的坑洼,对无家可归者进行风险评估,减少交通拥堵,将交通事故降至最低,预测发生山洪,与啮齿动物交战,预测非法油脂处理等。 福布斯 了至少90个拥有开放数据门户的城市。 虽然大多数都是大城市,但我想这个列表会在几年内扩展到​​较小的区域。

为了使用当前示例,纽约市通过其在线发布了数千个公开可用的数据集。 例如,纽约市的出租车和豪华轿车委员会按月有关全市出租车和豪华轿车旅行的数据。 网站上写道:“黄色和绿色的出租车行程记录,包括捕获上下车日期/时间,上下车位置,行程距离,详细的票价,费率类型,付款类型,以及司机报告的乘客人数。” 租用车辆旅行记录“包括捕获调度基本许可证号以及上车日期,时间和滑行区位置ID的字段”。

这些数据集中的大多数数据集都未实现强大的隐私保护。 由于所有这些数据都是公开的,因此当隐私保护不足或不存在时,滥用的可能性就很大。 这是在纽约市的出租车数据中发生的,当时了数据集如何显示有关驾驶员的住所和收入的信息,以及乘客的详细旅行证件,这也可能会造成损害。

显然,发布任何数据集的组织已经可以访问原始的,原始的,不受保护的信息,并且尽管对此事实(例如, 或使用的提出了一些疑问,但这并不是我们关注的重点。 。 相反,请考虑其他组织(除披露者之外)如何使用数据。 公司可以发布健身可穿戴设备的GPS日志,政府可以将其用于事后或近乎实时地跟踪人们的运动。 或者,一个城市可以发布有关其某些居民的数据,然后公司可以使用这些数据来提高个人的保险费率或得出详细的旅行历史记录。 可能会发生真正的伤害。

在以下情况下,为什么数据隐私问题会变得具有挑战性:a)许多人不了解如何监视它们的普遍性,b)其他人则对监视至关重要,并且c)其他人却宣称“隐私已死”并得出结论,我们应该继续前进。 这些都是危险的现实,因为隐私不关心是一种特权:“侵犯隐私伤害最脆弱的我们中间,”我 ,和“一种信念,数据隐私保护‘可能没有事情’只是一个不足惧不会对您使用这些信息。” 我们可能不在乎我们的信息是否由算法推断出来并可供决策者访问,但这并不适用于所有人。 而且,更广泛地说,也许我们一开始就不同意这些潜在的危害性披露。

因此,当我们考虑和 ,我们还需要考虑我们的社会如何在公开发布的数据集中强制实施最低限度的隐私保护,尤其是在政府机构的情况下,这些机构已经受到信息法的约束。披露。 这可能涉及看门狗组,有关数据集的最低隐私阈值的法律等等。 并且随着公众对数据隐私的担忧增加(尽管也许过于集中在Facebook上,而又没有足够集中在其他公司上),市场压力也可能会发挥作用。

因此,要在开放的数据集中建立强大的隐私保护,联邦,州和市级的政府实体就此问题需要决策者和技术专家之间进行正式和非正式的对话。 因为我们需要的最后一件事是技术上无知的政策,对原本应该保护的人没有帮助,甚至没有伤害。

翻译自:

数据开放 数据集

转载地址:http://ixyzd.baihongyu.com/

你可能感兴趣的文章
Linux IPC实践(3) --具名FIFO
查看>>
Qt之模拟时钟
查看>>
第一次接触安卓--记于2015.8.21
查看>>
(转)在分层架构下寻找java web漏洞
查看>>
mac下多线程实现处理
查看>>
C++ ifstream ofstream
查看>>
跟初学者学习IbatisNet第四篇
查看>>
seL4环境配置
查看>>
Git报错:insufficient permission for adding an object to repository database .git/objects
查看>>
ajax跨域,携带cookie
查看>>
BZOJ 1600: [Usaco2008 Oct]建造栅栏( dp )
查看>>
洛谷 CF937A Olympiad
查看>>
Codeforces Round #445 C. Petya and Catacombs【思维/题意】
查看>>
用MATLAB同时作多幅图
查看>>
python中map的排序以及取出map中取最大最小值
查看>>
ROR 第一章 从零到部署--第一个程序
查看>>
<form>标签
查看>>
vue去掉地址栏# 方法
查看>>
Lambda03 方法引用、类型判断、变量引用
查看>>
was集群下基于接口分布式架构和开发经验谈
查看>>