传感器

极简实现 TiDB 冷热数据分层存储 | He3 团队专访

发布时间：2025-08-19

步骤做到和气统计数据分开：

针对普行表格：做到 insert into select 的步骤已完成和气统计数据分开：

赞同创建者 S3 本体表格；赞同行过 insert into s3_table select from tikv_table where ... ，把 TiKV 外部表格的统计数据转储到 S3 ；也存储设备上；赞同行过 insert into tikv_table select from s3_table where ... ，把 S3 本体表格的统计数据转储到 TiKV 外部表格。

针对NTFS格：则才会已完成移去表格转化成 S3 本体表格，保有主表格和 S3 本体表格的同盟关系。

赞同行过 Alter NTFS格加载，把 TiKV 外部NTFS格的统计数据则才会转储到互换的 S3 本体表格之中，则才会已完成不限几件事：

外部 TiKV NTFS格统计数据转存到 S3 ；也存储设备之中；愈来愈改NTFS格元统计数据，把 TiKV 外部NTFS格转化成 S3 本体表格，核心要点保有 S3 本体表格和主表格的分区关系；写入 TiKV 外部NTFS格统计数据。

匹配后 S3 本体NTFS格对普行用户实际上透明，对普行用户来说，S3 本体表格就是主表格的一个移去表格。例如针对主表格的搜索结果包涵一小 TiKV 外部移去表格以及一小 S3 本体表格互换的移去表格统计数据，那么返回的结果就才会来自两一小：TiKV 外部移去表格，以及 S3 本体表格。

意味着普行用户用作 S3 本体表格和 TiKV 外部表格没法有任何区别：

S3 本体表格赞同所有的统计枚举； S3 本体表格赞同所有的等价；冗余 S3 本体表格加载精度在普行用户可接受的区域内。

行过赞同谓词(逻辑运算、相比较运算、数值运算），交联线性、Limit 等等价人口为120人到 S3 终端，利用 S3 的测算能力提很低搜索精度。

为了达到期待所有视觉效果，He3 在此次 Hackathon 之中开发设计修改了 TiDB 一些模块化：

SQL Parser 模块化、种系统表格模块化

增加一个属于自己种系统表格，用于留存 S3 元统计数据，每一条历史记录互换一个 S3 存储设备元统计数据：包涵 S3 的 endpoint, access key, secret key， s3 bucket。insert into mysql.serverobject values("s3object","","minioadmin", "minioadmin","s3bucket")；赞同创建者本体表格，相比普行表格增加了 s3option 选型，互换 S3 元统计数据；也，本体表格互换 S3 的存储设备路径：Bucketname/DBName/TableName create table s3_table(id1 int8,id2 char(30)) s3options s3object；赞同移去表格则才会转化 S3 本体表格

执行装置模块化

必需辨别加载表格有否是 S3 本体表格，如果是本体表格，写入时，统计数据以 256M 为粒度留存到 S3 的一个；也之中 , 当搜索 S3 本体表格时，S3 ；也才会被以低密度的步骤装配到 chunk 之中，以赞同上层等价加载；赞同等价人口为120人到 S3 终端，利用 S3 终端的测算能力加速 S3 本体表格的精度； S3 本体表格赞同所有的统计枚举，存储设备在 S3 的统计数据按 S3 本体表格的 schema 互换的统计枚举留存到 chunk 里，相关列都才会基于统计枚举编码；赞同 Alter 做到外部移去表格统计数据则才会转储到 S3 本体表格之中，同时保有主表格和 S3 本体表格的同盟关系恒定。

冗余装置模块化

再加量难以人口为120人 S3 的等价，He3 修改了冗余装置阻扰这一小等价人口为120人。当前不赞同的等价，主要就是包涵 TopN 等价。

来自精度检验的过关斩将

He3 最初设定的最终目标有两个：一是希望统计数据必需以相比较简单的步骤并不需要做到和气统计数据分开；二是希望和气统计数据分开到 S3 后，它的搜索精度必需在不合理的小时区域内。所以一开始就把走行 TPC-H 作为最终目标。

计划的和气统计数据分开功用立刻就已完成了开发设计，但是最后他们遇到了一个第二大的难题——精度总是难以顺利已完成。一开始的提案建筑设计是将全部统计数据都读取到 TiDB 上集之中处理，但在检验之中发掘出有即使只有 10GB 的统计数据，TPC-H 也走不出有来。三名队里行过讨论、调研、分析方法，发掘出有 S3 实际上也具备一定的测算能力，有否可以把一小测算人口为120人到 S3 ，让 S3 和 TiKV 一样必需承载一小测算？

改变提案后行过几个场景等价人口为120人，He3 发掘出有精度提很低颇为明显，在之后的开发设计之中就将能人口为120人的等价全部人口为120人，计划的整个精度冗余每天都才会以 20% 的波幅在提很低。终于在表演赛日上，他们走行了整个 TPC-H 检验。

He3 在 Hackathon 之中的 TPC-H 检验成绩

此次 Hackathon 之中，实际上还有另一支赛队 Interstellar 也选取了低层存储设备，这也给 He3 队里们留下了一个引人注目的画面：在 Interstellar 开始陈述时，He3 以为是自己在投屏，手忙脚乱地整天告诉他关闭投屏按钮，直到对方开始陈述了，他们才意识到本来是两个队伍的题目撞衫了。

本次参赛的心路历程

He3 队里们实际上在明年也受邀了 TiDB Hackathon，因为正要认识 TiDB ，并没法有好似操作种系统。此前心之中就埋下一个初衷，而才会参赛一定要好好够粗大的计划。这也是薛港在毕业后就给自己立于的最终目标 —— 好好统计文档操作种系统，并认为这是一件很酷的真的。于是在明年表演赛之中， He3 选取了最粗大核的赛道 —— 操作种系统组。

过去一年的兼职对他们设法颇为大，由于三人随便的兼职和 TiDB 结合颇为多，在好似到难题的时候就才会去想有什么补救提案，这个过程之中很难以产生各种好的 idea。例如这次如何增加 TiDB 存储设备开销的难题，他们此前就想出有了至再加三种提案：第一种是将 TiDB 底层的编码步骤好好一些改变，让 TiDB 的整个压缩比必需再次下降 50% - 60%；第二种也是一种和气统计数据分开提案，将 LSM-tree 和 S3 集成；第三种就是今天的和气统计数据存储设备低层提案。但前两种提案在 Hackathon 如此短的天数内较难已完成，于是他们就采用了第三种提案。

未来， He3 还才会从三个方向将该计划持续演变、给定：

行过属于自己编码步骤以及加速插值，增加统计数据在 S3 的存储设备容量，基于本次表演赛之中做到的视觉效果再次增加 50% 的存储设备容量；持续冗余 TiDB 对接 S3 的存储设备差别精度，在这次表演赛的中期，这块精度每天都有 20% 的精度提很低，He3 认为这里实际上还有很大的提很低生活空间；全面性简化普行用户的和气统计数据分开步骤。对这次计划的终于做到， He3 实际上还有一些遗憾，一开始建筑设计的时候他们想过今天和气统计数据分开还需要 DBA 来好好一些加载，如果能将这个兼职全面性做到则才会化加载，就可以让和气统计数据分开发设计展趋势再次上一个台阶，不过由于小时相比较有限的原因没法能做到。

此外，除了计划本身继续完善外，He3 还希望在给定到一定程度后就将整个产品的代码草拟给新社区，用开源的步骤透过新社区，大家四人继往开来。

（魏巍:刘畅）。

上一篇：《中国金融》｜防范钻石实物供应链洗钱风险

下一篇：教育部公布十一号201所全国急救教育试点学校名单