博客
关于我
流数据模型
阅读量:799 次
发布时间:2019-03-25

本文共 724 字,大约阅读时间需要 2 分钟。

流数据模型与传统关系模型(Relational Model)的主要区别在于两者对数据处理方式和组织方式的完全不同。对于流数据模型而言,有几个关键特征值需要特别注意:

  • 数据流的数据元素持续到来。与传统关系模型中存储在表中的固定数据集不同,流数据模型中的每个数据元素都在不同的时间点到达系统。这种持续性特性要求处理系统能够不断处理不断流入的数据流。

  • 数据处理系统无法控制数据元素的处理顺序。流数据处理系统需要能够应对数据流中元素到达的不确定性。相比之下,关系模型允许对数据按照固定的顺序进行处理和存储,这为复杂查询和事务处理提供了有力支持。

  • 数据流可以是持续的或无界的。某些流数据处理系统需要处理无限长度的数据流。在关系模型中,数据集通常是一个被明确定义的、有限的空间,而流数据模型则可以处理海量持续不断到达的数据。

  • 数据流在处理过程中具有动态性。设备到达速率进行处理后,目标数据元素通常会被丢弃或归档。这种预期允许系统专注于当前窗口中的活跃数据元素,而这些活跃数据只是整个数据流中极小一部分。

  • 在关系数据库的数据模型中,数据以元组的形式组织在表中。用户可以对表中的元组进行增删改查操作,而流数据模型则大不相同。流数据模型通常被看作是一个只允许添加元组的关系表。在传统关系型数据库中,用户可以执行任何类型的SQL查询,而在流数据模型中,可能需要使用所扩展的SQL查询语句来支持流数据的处理需求。

    需要注意的是,流数据模型和传统关系型数据库在处理数据方式上的差异并不意味着其应用场景二无重叠。在某些情况下,混合使用流模型和关系型模型是可行的。例如,大数据环境中的实时数据分析可能需要流模型来支持数据的持续处理,而关系型数据库则可以用于存储和管理历史数据。

    转载地址:http://uiiyk.baihongyu.com/

    你可能感兴趣的文章
    Pandas 中的多索引旋转
    查看>>
    Pandas 中的日期范围
    查看>>
    pandas 中的时间序列箱线图
    查看>>
    Pandas 使用指南
    查看>>
    pandas 分组并使用最小值更新
    查看>>
    Pandas 对数据框的布尔比较
    查看>>
    pandas 将通话数据分割为15分钟的间隔
    查看>>
    pandas 找到局部最大值和最小值
    查看>>
    pandas 数据框至海运分组条形图
    查看>>
    pandas 时间序列重新采样结束给定的一天
    查看>>
    pandas 根据不是常量的第三列的值将值从一列复制到另一列
    查看>>
    pandas 根据值从多列中的一列查找
    查看>>
    Pandas 根据布尔条件选择行和列
    查看>>
    pandas 滚动窗口 - datetime64[ns] 未实现
    查看>>
    pandas 版本兼容特定的蟒蛇和NumPy配置吗?
    查看>>
    pandas 生成excel多级表头
    查看>>
    pandas 读取excel数据,以字典形式输出
    查看>>
    Pandas 读取具有浮点值的 csv 文件会导致奇怪的舍入和小数位数
    查看>>
    pandas 适用,但仅适用于满足条件的行
    查看>>
    pandas 重新采样到每月的特定工作日
    查看>>