首页 热门物流资讯 【学术速递】数据工程与常识工程实验室团队论文被ICDE接纳

【学术速递】数据工程与常识工程实验室团队论文被ICDE接纳

★ 【学术速递】数据工程与常识工程试验室团队论文被ICDE接纳 ★ NEWS 标题:TS-Benchmark: A Benchmark for Time Series Databa…



【学术速递】数据工程与常识工程试验室团队论文被ICDE接纳



NEWS



标题:TS-Benchmark: A Benchmark for Time Series Databases

团队:中国人民大学数据工程与常识工程教育部要点试验室(DEKE)

论文接纳状况:Accepted by ICDE 2021

01



前语



基准测验是测验和改善数据库体系功用的一种办法,一般代表着用户和职业的对数据库体系的需求。当数据库供给商发布新的数据库服务时,他们一般会进行一组新的基准测验,以供给依据证明新版本的功用优于旧版本。经过基准东西测验能够来发现不同体系间的距离,然后使得竞赛者们在规划办法和服务上进行继续改善,来取得竞赛优势,这也促进了职业界相互竞赛促进的良性开展。


TS-Benchmark是一款评测时刻序列数据库功用的测验基准套件,支撑国际上干流时刻序列数据库的功用测验,如InfluxDB、OpenTSDB、Druid、TimescaleDB等,并可依据用户需求自主增加其他数据库的测验接口。该东西最早服务于面向高端制作的大数据办理体系(国家要点研制项目),用于比照测验IoTDB数据库与其他时刻序列数据库的功用,独立成为了一套功用齐备的测验基准。作业未正式揭露前,就有来自美国、欧洲、南美、非洲等地的学者经过邮件索要论文和代码。基准东西开源在

https://github.com/dbiir/TS-Benchmark。

02



摘要



时刻序列数据广泛用于供应链,金融数据剖析和智能制作等场景中。现已存在很多的时刻序列数据库体系来办理和查询大规模时刻序列数据。咱们注意到,现有的面向时刻序列数据库的基准测验会集在杂乱剖析的作业负载上,例如形式匹配和趋势猜测,其功用或许会遭到数据剖析算法的高度影响,而不是后端的数据库。可是,在时刻序列数据库的许多实践运用中,人们对功用目标(例如数据注入吞吐量和查询处理时刻)更感兴趣。依然需求一个基准来广泛比较此类目标下时刻序列数据库的功用。咱们提出了TS-Benchmark,该基准首要适用于风力发电场景下的设备监控计划。提出了一种依据DCGAN的数据生成模型,用于从一些实时序列数据中生成很多时刻序列数据。作业负载分为三类:数据加载(分批),流数据注入和历史数据拜访(用于典型查询)。咱们运用TS-Benchmark测验并比较四个代表性的时刻序列数据库:InfluxDB,TimescaleDB,Druid和OpenTSDB,并对测验成果展现和剖析。

03



运用场景



新的网络技术(例如5G)的呈现依赖于大规模在线监控运用程序,其间需求搜集很多时刻序列数据并将其及时发送到数据中心以进行毛病监控和确诊。因而,写入功用关于后端TSDB至关重要,咱们需求一个新的TSDB基准,它能够评价写入功用以及时刻序列数据典型剖析使命的纯读取功用。


TS-Benchmark首要依据毛病监测和确诊在风力发电中的运用,一起它也支撑其他类型的时刻序列数据。图1中显现了此运用中的典型数据作业流。搜集风场中风力发电机的一切传感器读数,并定时将其发送回数据中心。每个设备上的传感器数量多达数百个。风电场将其数据独立发送到数据中心。大型风力发电公司或许稀有百个风电场,因而需求处理来自不计其数个设备的数据。流数据一般被路由到用于监督运用程序的流处理体系和用于耐久存储的TSDB。流处理体系一般支撑时刻序列数据的可视化剖析。用户能够挑选特定的风电场,设备或传感器进行监督。监督运用程序能够拜访较小时刻范围内的最新数据。某些毛病的警报将在仪表板上陈述。假如用户想进行一些探索性或高档的数据剖析,则需求进一步拜访存储在TSDB中的某些历史数据。当观察到或猜测到某些反常/毛病时,一般会产生这种状况。


TSDB担任耐久化存储流数据,以便在某些状况下能够有效地检索它们以进行查询和进一步剖析:

l  问题辨认。

l  运营优化。用户或许对哪个发电机最近体现最好感兴趣。这需求获取与发电相关的传感器的首要读数以进行深入剖析,以便找到一些抱负参数来优化发电机。

l  问题猜测。

l  相关性剖析。人们需求在不同设备之间履行相关性剖析,或许对同一设备的不同传感器进行读数进行相关性剖析。这就需求在同一时期读取不同设备和传感器的历史数据以进行相关剖析。


风力发电厂时刻序列数据处理流水线


04



数据生成



许多物联网监督运用程序需求很多传感器数据来接连生成和剖析。基准测验需求能够以高吞吐量生成很多高质量的传感器读数。“高质量”是指生成的时刻序列(在形状方面)与实时时刻序列数据十分类似。“高通量”意味着能够并行生成很多传感器读数。为了更有效地模仿时刻序列并更有效地生成时刻序列,如图2-3所示,咱们提出了一个海量时刻序列数据生成结构,该结构具有以下过程:

1. 从实在时刻序列数据创立种子片段(序列);

2. 运用生成对立网络(DCGAN)模型从实在种子中生成组成片段;

3. 依据仿真片段的类似性树立有向图;

4. 在有向图上运用随机游走继续生成时刻序列。

05



作业负载



TS-Benchmark具有3种作业负载:数据加载,数据注入和数据获取。


1)数据装载:以文本格式生成数据集,能够依据以下三个份额因子动态设置数据集的巨细:风电场数量,每个风电场的设备数量和每个设备的传感器数量。在数据装载测验期间,运用数据库自带的import东西或专门为其编写的数据装载程序将批量数据文件导入方针数据库。


2)接连数据注入:


3)数据获取:针对四个查询场景,问题辨认、出产优化、问题猜测、相关性剖析。

06



总结



在本文中,咱们为TSDB提出了一个新的基准,称为TS-Benchmark。它是在物联网剖析运用场景中首要测验TSDB功用的东西。咱们界说了更适合评价TSDB功用的目标。它首要依据风电场时刻序列数据办理的实践用例来构建基准东西。咱们运用基准测验来比较数据库的功用,包含批量文件装载,高并发流数据注入和查询功用。咱们运用TS-Benchmark对四个典型的TSDB进行了试验,并剖析了成果。TS-Benchmark的首要奉献如下:


1. TS-Benchmark可模仿现什物联网运用中TSDB上的作业负载,即风力发电场景下的数据办理和运营剖析;

2. 依据DCGAN,规划了一个数据生成模型;

3. TS-Benchmark能够轻松地用于测验代表性的TSDB,例如InfluxDB,TimescaleDB,Druid和OpenTSDB,而且能够依据用户需求自行拓宽;

4. 发现TSDB的某些共同规划带来了杰出的功用。

07

本文来自网络,不代表快递资讯网立场。转载请注明出处: http://www.llaiot.com/popular-logistics-information/2605.html
上一篇
下一篇

为您推荐

返回顶部