返回IT运维网
  • |
  • 文章EID:
  • |
  • 账号:
  • 密码:
除了成本 你还要关注的数据湖架构隐忧
2016-04-21 TechTarget中国 / 孙浩峰

数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。 尽管IT部门起初更多担忧的是数据湖的成本,但数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要那来分析以及和年复一年的数据进行比对,这将抵消其容量成本。 这就是所谓的数据持久性——对于那种一经存储未来5-10年都有价值的数据,它必须是可读的。所有形式的介质都将随时间推移降级。数据湖存储系统必须通过持续的检查避免这种降级。如果发现有损坏或降级的数据集,系统就会利用复制或纠删码制造副本。 在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以已于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。 因此建议实现多个级别的安全控制,例如: 加密数据湖中所有数据。由数据类别和单独的键值生成的加密将有效的限制数据泄漏,并不影响应用访问。 数据湖中所有数据副本应离线存储于另一位置。
 

相关评论 [查看所有评论]
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
心情:
  • 支持
  • 高兴
  • 枪稿
  • 不解
  • 搞笑
  • 愤怒
  • 谎言
账号: 密码:
验证码 看不清?点击更换
相关阅读