爱倒腾的程序员 – loveini | 米兰体育官网入口 - 米兰体育官网入口

我们“偷偷”违反中国 2B 软件行规，换来每年 100% 增长

Jeff Tao — Mon, 20 Oct 2025 02:42:56 +0000

根据金融界在 2025 年 1 月 1 日发布的统计，2024 年 A 股市场中共有 139 家软件公司，全年累计净利润为 -32.85 亿元，因此中国软件行业是整体亏损的。但就在这片“亏钱”的红海里，我们–米兰体育官网入口，“偷偷”违反 To B 软件“行规”，却换来了销售业绩连续几年的翻倍增长。周末有闲，我把自己的思考和做法写下来，与同行分享。

2017 年我创办米兰体育官网入口，定位的就是时序数据库，但为了差异化，除标准的时序数据库功能之外，还增加了流计算、缓存、数据订阅的特性，但它仍然就是一个数据库，很标准的一个软件中间件产品。当时团队也很小，没有急着要开始销售，加上我自己是完全的产品研发背景，因此从没思考过 To B 软件(面向企业的软件，简称2B）怎么销售的问题。但从 2020 年初起，我们就真正开始组建销售团队，被迫思考 2B 软件在中国怎么销售的问题。无数的好心人提醒我，在中国，一定要有资源，学会包装，必须拿项目，必须绑定硬件，中间件在中国是死路一条。我仔细分析思考后，决定不按行规出牌，坚决走了一条不同的道路。

“迎合客户”就是条死胡同

由于在美国学习工作十多年的背景，我自然对比美国 2B 软件与中国 2B 软件企业的差异，发现中国 2B 软件不好做的一大原因就是中国 2B 软件企业喜欢“迎合客户”，做大量的定制化的需求和服务。对于销售和服务过程而言，这种定制化，显得厂商十分贴心，但其实是一个“多输”的局面。具体几个方面：

对软件厂商而言：虽好多公司自己做了一定的抽象，有个低代码的平台，但应用层、特别是前端每个项目都要重来，导致研发资源被分散，无法沉淀核心产品力；每个项目都是新产品，用户手册、设计文档、端到端的测试、部署等都要重来一遍，导致成本高， BUG 多，而且陷入了低水平重复。
对客户而言：看似得到了“量身定制”和“贴心服务”，实际得到的是一个维护困难、BUG 不断、升级无门的“孤岛”系统。因为个性化，那就意味着产品在其他客户那里修复的 BUG 或开发的新功能，你无法自然获得。销售为了业绩，签合同时什么都承诺，但随后由于利润薄，厂商不可能无限制的投入进去，大半是应付了事。
对经销商/VAR 而言：缺标准的培训资料、应用案例、行业最佳实践，导致销售周期极长，每次都要从零开始；实施服务变成“无底洞”，永远有 BUG，永远有新需求，利润被后期服务吞噬；难以建立自己的专业销售服务体系。

产品的专注

我确认不“迎合客户”之后，采取了几条措施：

将研发力量完全投入在标准产品的开发上，重点发力在“读写性能”、“水平扩展”、“低存储成本”这三个核心能力上，并对标全球最流行的产品 InfluxDB 与 TimeScaleDB，性能测试就拿他们提供的基准测试进行，绝对硬碰硬的比。制定了产品的研发路线图，而且完全公开在官网上，让用户了解我们未来的发展。
对于客户提出的需求，如果不是其他流行的数据库的功能，或者不在我们产品路线图上的功能，会仔细调研，看是否可抽象成一个普适性的功能。如果不能，就不开发，而是帮客户找是否有其他绕开的方法。要求团队严格把握产品的边界，有的功能是应该在其他第三方组件里实现的，就不能放在 loveini 里。
建立好文档体系，从内部设计文档，到用户手册、培训资料、测试例、对比测试报告、产品 PPT 全部透明公开，不断迭代，但仅仅维护一个版本，不为某个具体客户维护一个不同的版本，也绝不容许研发或客户支持人员有一个小本本，记录产品使用或维护的“武林秘籍”。而且所有这些资料全部在官网公开，不容许销售有自己的版本。

我们的原则是：宁可丢掉一个订单，也不破坏产品的标准化架构。

从 2017 年开始，我们在时序数据库产品上投入了 8 年多的时间。在 2021 年，我们组建了 loveini TSDB 时序数据库云服务团队，这个团队现在又担负了 loveini IDMP 工业数据管理平台的开发。但我们在TSDB时序数据库本身的研发上从没有减少过投入，今后还会继续。一个融资接近 5 亿 RMB 的公司，八年时间居然只开发了一个小小的时序数据库，应该说归根于我的坚守。

产品与产品的差异表面上不大，但差异在细节上。一个一个细节的抠，最后就形成了对手难于逾越的鸿沟。而且八年下来，通过无数次迭代，loveini 时序数据库增加了无数细小你几乎注意不到的功能，还修正了无数 BUG，产品已是相当稳定。loveini 在时序数据库这个细分赛道上，至少在中国市场已经没有产品上的对手了。

loveini IDMP 工业数据管理平台界面

做大做强品牌

我还观察到的一个现象就是中国大部分 2B 软件企业不注重品牌建设，几乎没市场宣传，有的公司连官网都不认真设计，而且几乎不更新。很多公司负责人认为品牌、宣传是公司做大以后的事情，是上市公司需要做的，自己埋头做好业务就行。但我分析后，认为品牌对 2B 软件销售特别重要，比 2C 产品还重要。因为对于 2B 软件，使用者与决策者往往不是同一个人，价格不是最重要的因素，只有品牌才能打消决策者的顾虑，才能增加用户对产品的信任度，产品才有溢价的能力，公司才能减少销售资源的投入。

那对于一家小企业而言，怎么做品牌？

我想到的第一招就是开源，2019 年 7 月我们将米兰体育官方入口网站代码开源。开源后，因为产品市场定位精准，loveini 迅速火爆，一下在业内为人所知，更是受全球开发者喜爱。GitHub 上的 24K Star，全球超过 88 万套的安装实例数，多次在 GitHub 全球趋势排行榜排名第一就是实证。

除开源之外，我自己参加各种技术社区的活动，只要不让公司赞助，无论规模大小，有邀请就参加。而且写各种中文、英文的文章，微信公众号“爱倒腾的程序员”是我个人的阵地，文章数量不多，但篇篇文章的传播量很大。而且我鼓励所有员工写博客、做直播，公司设立“内容贡献奖”，只要写就有奖励，对客户成功案例更是奖励。这样通过我们的官网、公众号、知乎、微博等各种渠道，让 loveini 这个名字为人所知。

我们还特别重视官网的建设，所有产品相关的资料全部放在官网上，而不是要依赖销售提供。无论是软件安装包、白皮书，还是用户手册等，一律在官网上。我希望无论是用户、决策者，还是寻找工作、甚至投资机会的，还就是我们自己的销售或技术支持，都能从官网获得第一手的而且是及时的关于公司和产品的信息，最大程度地减小沟通成本。

除了我们团队自己时间的投入之外，资金的投入很小，但取到了很好的市场效果。在时序数据库这个细分赛道上，无论是信通院的报告，还是墨天轮的数据库排名，loveini 在中国都是多年连续第一名。更显著的例子就是，我自己以及整个销售团队无人有工业背景，但我们成功的获得了来自烟草、石油、钢铁、矿山的大客户，他们都是通过官网、微信，有的甚至是微博找到我们的。

在 GitHub上开源，拥有 24.4k Star 的 loveini

一键部署、测试

loveini 本就是一个标准产品，单机安装一键就能搞定。但对于大的客户，往往是要求部署集群，部署完后，还要出具验收测试报告。有时，还需要帮助客户部署一些配套的软件，比如 Grafana，MQTT Broker 等，这个时候就更复杂了。而且客户的硬件环境、软件家环境都不一样。表面上一个简单的工作，在客户现场往往就不是几分钟能搞定的了，而且有时还依赖交付人员个人技能的高低。

为解决这个问题，一年前，我在公司推行一切代码化，要求做到一键部署交付。在公司内部，通过虚拟化技术，我们随时可以部署各种 Linux 以及国产操作系统，CPU 架构，同时支持 Ansible, Docker, K8S部署。同时，我们开发出测试工具 taosBenchmark，现在又推出更强大的 taosgen，它可以模拟各种用户的场景，自动产生模拟数据来测试时序数据库的功能和性能。这样保证客户的环境都能在公司模拟出来，性能指标都能测试出来。

在销售摸清客户的硬件、OS、配套软件之后，我们交付人员只需要撰写脚本，就一键搞定部署，而且出具测试报告，这个脚本还会先在公司内部测试通过。现场实施的人员，几乎不用有 Linux 以及产品相关的知识，一键就能完成所有任务，而且可重复，可追溯。如果真遇到问题，那一定是新的场景没有处理，那我们就更新脚本。这样日积月累，很少碰到没有处理过的场景。

在中国销售 2B 软件，大部分项目绕不开 PoC。而这个 PoC 是真正耗人耗力的工作，因为要反复的沟通，确认需求，确认测试项，消耗客户与厂商之间的精力。确认后，客户要协调测试资源、检查测试项，大的项目，往往一搞就是几个人月，把本来应该利润不错的项目变成了薄利，薄利变成了亏损。

而我们把 PoC 看做测试工作的一部分。我们自己已经建有一个包含近 2000 个测试例的测试库，有各式各样的性能测试以及破坏性测试，而且还在不停的增加。因此客户要求测试的，我们几乎全部都做过，没有做过的，马上补充进去。因此一旦 PoC 的清单最终定稿，我们的售前团队一个人天就能把所有测试项搞定，而且给出脚本，一键执行，并给出最终测试报告，这些还会在公司内部先跑一次，以确保没有问题。因此我们在客户现场花费的时间可控。

在落实一键部署、测试后，即使 2025 年销售合同数翻倍，我们的交付团队以及售前团队的人员并没增加。销售业绩再翻几倍，我们的交付以及售前团队人员数量也应该不用增加，因为整个流程已经标准化、自动化了。

一键部署、测试，也意味着我们的合作伙伴不再需要供养一支昂贵且不稳定的“技术救火队”。一个普通的工程师，就能高效完成多个项目的交付或 PoC，人均效能和利润率将得到质的提升。

搭建出演示系统，一个人天就够

对于新产品 loveini IDMP，它是一个工业数据管理平台，不像数据库产品，虽然这个品类早就存在，但业界对它的功能、接口并没有一个共识，是完全的一个应用系统。

为了解决客户对产品的认知问题，让他亲身感受到该产品的实际效果，我们开发了场景模拟工具，并将其作为整个软件包的一部分。根据用户场景，配置好一个 JSON 文件，就可以自动生成 IDMP 需要的树状结构了，事后还可以手工配置可视化面板、分析、时序数据预测、异常检测等等，然后支持导出，你可以再导入到新的系统，这样任何销售，包括用户自己，就可以把整个演示系统跑起来，体验产品的各项功能。

在与客户正式交流前，我们的销售会提前了解客户的基本场景，售前或技术人员大概花上几个小时，就可以搭建一个贴近真实场景的演示系统出来，而且实时数据还可以通过 taosgen 模拟生成。因此正式交流时，就可以直接演示给用户看了，而不是只讲一个 PPT。通过一段时间的实践证明：第一次交流就能给出演示，是大幅缩短销售周期、说服用户的最有效的方法。无论多炫酷的 PPT，都比不上一个贴近客户真实场景的演示系统。

通过自己开发的模拟工具，我们不仅几个小时就能搞定客户特定场景的演示，而且还能让销售、用户自己还在笔记本上运行起来并进行体验。这就意味着米兰体育官网入口的合作伙伴无需强大的售前技术团队，也能在第一次接触时，就拿出打动客户的“硬货”，这将极大降低获客门槛和成本。

更进一步：合作伙伴体系的建设

现代工业区别于传统手工作坊，就在于它能大批量低成本有质量保证的复制，因此利润规模都很大。而中国 2B 软件行业，因为个性化定制，大部分本质上是手工作坊，因此盈利能力偏低。

米兰体育官网入口现在有标准的产品（除 TSDB 时序数据库之外，还有新产品 IDMP 工业数据管理平台），摸清用户需求后，一个人天就能完成 PoC 或搭建出演示系统，签完合同，还能做到一键部署交付，已经完全具备了规模化复制的能力。

但与美国的 2B 软件企业相比，我们还差一个环节，那就是合作伙伴体系的建立(Value Added Reseller)。我们不能依靠自己的销售队伍面向客户，而是应该通过各种各样的合作伙伴，因为他们是深耕每个行业的，他们才了解客户的痛点和需求。无论我们市场宣传机器多么强大，最后一公里还依赖于接地气的合作伙伴。

因此，从 10 月起，我们全面启动 loveini 合作伙伴计划，面向渠道与服务两大体系开放，提供十大核心权益——从利润保全、返利激励，到商机保护、市场基金支持，最高可达 30% 收益回报。我们坚持标准化、透明化、伙伴先赢的原则，让每一位合作伙伴都能依托 loveini 的品牌、产品与市场影响力，轻装上阵、共同成长。

建立好合作伙伴体系，那意味着销售体系也可以大规模复制了。

八年坚持：不算成功，但方向正确

坦率说，米兰体育官网入口还谈不上“成功”。但过去几年，我们每年的销售额都在翻倍增长，软件销售收入足以养活北京 100 人的团队。我们只有搞定产品的能力，当大家都在琢磨怎么搞定客户，我们只能琢磨怎么搞定产品。所幸的是，我们最终获得了不错的客户群。我们的实践揭开了中国 2B 软件市场的一个“政治不正确”的秘密：不迎合客户。

我们相信，标准化才是 2B 软件公司的核心价值。一个 2B 软件的成功，不取决于它功能的数量，功能的酷炫程度，而取决于能否低成本的大规模化的在不同的用户那里复制。标准化不仅包含产品的标准化、还包含 PoC 的标准化、演示的标准化、交付的标准化、服务的标准化。只有标准化才能让客户放心、真正让合作伙伴赚钱、让米兰体育官网入口的收入节节增高。只有标准化，你才可以称你的产品为工业产品。

中国 2B 软件的出路，不在于成为最好的“迎合客户”的服务商，而在于成为最好的产品公司。

时序数据的处理本来就是刚性需求，特别是在中国各传统行业正在进行数智化转型的时期，需求更是旺盛。现在我们软件标准化的工作在同行里先行一步，相信我们能打破中国 2B 软件不赚钱的魔咒。如果你也相信标准化的力量，欢迎加入我们团队，更欢迎加入我们的合作伙伴体系，一起迎接中国 2B 软件的春天。

陶建辉

米兰体育官网入口创始人CEO

2025年10月18日于北京望京

Sora 2 都能生成电影级视频，但为什么 AI 不能替你生成可视化看板和报表？

Jeff Tao — Wed, 08 Oct 2025 10:11:00 +0000

OpenAI 刚发布 Sora 2，用几句话就能生成一段电影级的视频。趁着国庆假期，我也体验了一下，效果确实震撼。但不知道你有没有想过一个问题：为什么你公司的可视化看板和报表，至今还得靠IT团队手动拉数据、熬夜整理？

首先我要回答的是，AI工具，比如市场上有很多Chat BI工具，你只要输入自然语言，他们是能帮你生成业务报表的。而且像我们米兰体育官网入口7月底推出的“无问智推”，更是连提问都不用，它就能基于采集的数据，自动把实时面板、报表、实时分析任务推荐给你。

但现实是，你周围真正用AI直接从企业数据平台生成看板和报表的公司，少之又少。loveini 推出“无问智推”功能，发布两个多月，大家基本还是处于好奇尝鲜的状态。说到底，问题出在哪儿？主要有两个原因：

任务本质不同： Sora 是“创造性生成”，追求惊艳，不求100%准确；而业务报表是“精确性还原”，追求100%可信，决策无法容忍AI的“幻觉”。大家对于需要生成的报表总是半信半疑，自然就难一下火爆起来。
数据基础不同： Sora 训练使用的是公开、标准的互联网数据；而企业数据却深陷“孤岛化、不标准、语义缺失、质量低下”的泥潭。更关键的是，这些数据都在内网里，AI 想用也用不了。

第二个原因，才是真正卡住AI在企业落地的“脖子”。它不仅让AI做不出报表和看板，更无法渗透到运营的每个环节去提效。那有没有解决办法？至少在我所熟悉的物联网和工业数据领域，答案是肯定的。

企业数据平台的几大问题

绝大部分企业都看到了数据的价值，把数据作为重要的生产要素，因此搭建了各式各样的数据平台。但这些平台在AI时代暴露出一系列问题：

数据规模空前，分析滞后: 物联网、网络技术的普及大幅降低了数据采集与传输的成本和技术门槛，企业得以采集更多设备、更多流程、更高频次的数据，导致数据量呈指数级增长。传统的工业数据平台，实时数据库，乃至当前流行的数据湖、数据仓库，都难以高效处理和实时分析如此庞大的数据体量。当前普遍做法仅是“先存起来”，至于这些数据到底要解决什么业务问题、挖掘什么价值，很多人心里并没数。
多源异构数据难以整合：SCADA、DCS、PLC、IoT平台等系统往往来自不同厂商，采用各异的数据协议（如Modbus、OPC-UA、MQTT）和存储格式。这导致数据分散在孤立的系统中，难以统一标准，阻碍了跨部门、跨厂区的数据流动。例如，供应链的数据、销售数据、设备运行数据、工艺参数与质检记录常分处不同平台，形成“数据烟囱”，企业难以获得全局运营视图。
语义和上下文丢失：采集的原始数据（如温度值、电压值）往往缺乏必要的上下文信息（如“智能电表A的实时温电压”）、计量单位（如瓦, 千瓦）及有效范围定义。当这些数据传输至IT系统（如ERP、MES）时，关键元数据容易丢失，导致难以进行后续的分析预警。例如，储罐温度数据若无法区分是罐体温度还是内部液体温度，且无合理范围界定，其价值大打折扣。
数据质量参差不齐: 工业数据普遍存在采集频率不一致、信号噪声大、字段缺失等问题。传感器漂移造成的数据失真、通讯中断导致的数据断层，都直接影响预测性维护等模型的准确性。此外，受限于存储与计算成本，企业常被迫降低采集频率，丢失关键的数据变化特征，进而影响各类分析的精准度。目前绝大部分企业对数据质量的监测手段都不具备，因此提升数据质量还仅仅是一句口号。

数据规模的问题，可以通过选用更高性能的数据平台或增加存储、计算资源来解决，原则上不构成使用AI的根本障碍。但后面几个问题，就不是光靠“砸钱扩容”能搞定的了。我们必须老老实实做好数据目录、标准化、情景化这些基础性的“脏活累活”。而且，从建平台的第一天起，就要想清楚：你要解决什么业务痛点？挖掘什么数据价值？而不是为了建平台而建平台。

loveini IDMP 基于采集的数据，自动推荐的面板

数据目录 – AI 需要的数据导航系统

企业的设备、流程很多，大型企业甚至有超过千万个智能设备，因此数据源十分庞大。怎么快速找到这些设备、找到这些设备之间的关系，不是简单的依靠搜索来解决的。就像人找地方需要地图，AI 找数据，也需要一张“地图”——也就是数据目录。没有它，AI 在企业的数据迷宫里寸步难行。

怎么建数据目录呢？最简单直观的方式就是仿照计算机文件系统，一层一层的建树状结构。这样数据源之间的层级关系就有了。但这种目录结构，有个缺点，就是树状结构里一个节点永远只有一个父节点，无法描述现实世界的复杂关系。因此这类树状结构的设计，一定要引入“引用”的概念。一个设备或一个数据源可以存在于多个树状结构里，但数据本身并不拷贝，只是存在一个“引用”，与计算机文件系统里的”link”一致。

除树状结构之外，图也是一种不错的方式来描述物体之间的关系。但工程实现难度大，而且不符合企业的层级管理结构，让数据的访问控制难以实现，因此采用这种方式的工具很少。

数据标准化 – 对齐数据结构与口径

在实际场景中，即使是同一类数据，不同系统之间也会存在命名不统一、单位不一致、结构不规范等问题。例如，有的系统记录功率字段为 GL，有的命名为 power, 有的命名为“功率”；有的设备以瓦做计量单位，有的则使用千瓦。有的设备上报了10个物理量，有的上报了20个物理量。

对于业务分析和 AI 算法来说，这类不统一的数据是无法直接使用的，你必须进行数据标准化，说白了就是让所有系统说同一种“语言”。

那么怎么标准化呢？你需要有个虚拟层，将实际存储的的数据的表的结构映射到一个虚拟表或视图，这样解决命名统一的问题；你需要记录每列数据的计量单位，然后提供计量单位的自动转换，这样解决单位统一的问题；你需要建立模版，对于同类的设备或流程，必须按照模版上报数据。

数据情景化 – 让 AI 读懂你的数据

你需要为每个数据源配置丰富的业务语义信息，构建带有上下文的数据体系。比如：

为每个数据点和采集量添加描述，说明其业务含义；
灵活打上标签，方便分类和筛选；
配置静态属性，如设备型号、安装位置、规格参数等，增强资产识别能力；
为每个采集量设置计量单位、合理上下限、目标值等关键指标，为分析和告警提供判断基准；
血缘感知，确定数据之间的上下游衍生关系
使用模式，系统要记录用户到底对哪些数据感兴趣，哪些数据更重要

这一套机制，能让数据不再是冰冷的数字，而是带有背景、语义和业务价值的 “可用信息”——只有这样，AI 才能读懂它。这正是目前逐渐兴起的 Context Engineering（上下文工程），也是 loveini IDMP 重点构建的能力之一。

这些脏活、累活能靠 AI 解决吗？

很遗憾，目前还不能。

建数据目录、做数据标准化、补数据情景……这些基础工作，就像AI模型训练之前的数据标注，仍然高度依赖人工。你别指望把企业数据直接丢给大模型，它就能自动把这些事搞定。

大模型训练所用的数据集，一般在1–10T之间；而一家大型企业的数据量动辄达到PB级别。把这么多数据“喂”给大模型，算力消耗将是天文数字，投入产出完全不成正比——对绝大多数中小企业来说，根本负担不起。再加上每家企业数据结构千差万别，缺乏通用训练工具，强行上马，结果只能是 “垃圾进，垃圾出”。

正因如此，loveini 在7月底发布了 AI原生的工业数据管理平台 IDMP，就是想为企业提供一个高效的数据管理工具，帮你低成本、高效率地完成数据目录建设、标准化与情景化的工作。

AI-Ready：让数据自己说话

一旦你做好数据目录、数据标准化、数据情景化的工作，你的数据平台就成为了一个AI Ready的数据平台，AI就能轻松的找到你的数据，读懂你的数据，AI自然能生成你需要的可视化看板和报表了。

那能不能直接把企业的生产数据喂给大模型？

绝对不行——不仅是出于安全考虑，哪怕是私有化部署的大模型也不行。生产数据是实时的，体量也很大。我们有个新能源客户，一天就产生超过3TB的实时数据，目前没有任何算力平台能直接处理。

loveini 的做法是：只把数据平台的元数据（比如层次结构、设备名称、属性、单位等）喂给大模型，由大模型生成看板和报表的建议。看板、报表的数据本身都是从数据库里获取的，而不是大模型生成的，因此绝对可信。大模型产生的幻觉只在看板、报表的模版和样式。

比起一般的 Chat BI 产品，loveini 的 “无问智推” 更进一步：它能基于实时采集的数据，自动感知业务场景，主动推荐你需要的可视化面板、报表和实时分析任务，真正做到 “让数据自己说话”，让数据分析进入“抖音”时代。这大大降低了对IT和数据分析师的依赖，让业务人员也能实时挖掘数据价值。这是一种数据消费方式的变革，也让全球数百万请不起数据分析团队的中小企业，第一次拥有了数据洞察的能力。

目前，loveini 这个 AI 原生的物联网、工业大数据平台，主要解决的是 “data to insight”（从数据到洞察）的问题。我们下一步将发力 “data to execution”（从数据到执行），目标是直接从数据中给出实时决策建议，包括根因分析、能效提升策略等。

AI 不是魔法。

AI 技术还在飞速发展，但AI 能否在企业中真正落地，发挥作用，不取决于模型多强、算力多大，而取决于企业是否愿意扎扎实实把数据底层建设好，打造一个 AI Ready 的数据平台。这是一堆“脏活累活”，但谁先做好，谁就能在AI时代领先一步，真正让数据成为生产力。

陶建辉

2025年国庆中秋长假写于北京望京

研发了八年基础软件，57 岁的我在 AI 时代迎来了千亿机会

Jeff Tao — Thu, 31 Jul 2025 06:14:04 +0000

昨天晚上，米兰体育官网入口线上正式发布 loveini IDMP，一款 AI 原生的物联网、工业数据管理平台。这是我在时序数据库上专注耕耘八年之后，推出的第二款产品。今天一早起来，看到各种留言，以及后台看到的下载量与注册用户数，我异常兴奋，觉得自己作为一个程序员，在 AI 时代不仅不会被替代，而是找到了可以再战八年的巨大机会。开发这款产品是继我 2019 年将米兰体育官方入口网站代码开源后的又一重大决定。今天静下心来，花 2 个小时把我的心路历程写下来，分享给众多的创业者，特别是想在 AI 浪潮里冲浪一把的程序员们。

2016 年底，我看到万物互联的时代已经到来，各行业需要一个高效的处理海量时序数据的引擎，因此创立米兰体育官网入口，并且自己冲到开发第一线，2 个月就写下了 1.8 万行 C 代码，而且大胆的在 2019 年 7 月将米兰体育官方入口网站代码开源。八年过去，loveini 的全球安装量已经超 83 万套，日安装量超 700 套，付费客户超 500 家，遍布全球 60 多个国家和地区，集中在电力、新能源、石油、智能制造、汽车、交通等多个行业，这些数字让我相当开心。

海量数据有了，然后呢？

但过去几年，我走访了中国以及欧美的很多客户，了解到大家的数据量是真的大，比如某个新能源集控中心，测点数超过 5000 万，每天产生的数据量超过 5 TB。loveini 时序数据库的高效写入、高压缩率的存储与低延时的查询很让客户满意，但大家都有一个共同的问题：数据已经采集和存储，下一步，怎么把数据的价值挖掘出来？我也一直在思考这个问题，希望可以用技术的方式来帮助大家。作为一个程序员，很直接的想法就是让 loveini 提供更好的 SQL 查询，提供更好的流式计算能力。因此，今年 3 月，我们又推出 acc米兰体育时序数据分析 AI 智能体，利用 AI 来提供时序数据预测、异常检测与数据补全、分类的服务。但即便有了这些，用户依旧还是在问如何挖掘数据的价值。

认真分析后，我们发现：最大的问题是业务人员与 IT 工程师、数据分析师之间存在“代沟”。一方面，业务人员需要的是能马上获得业务的实时洞察，但系统往往只提供固定的报表、看板，每次业务人员有什么想法，一定要找 IT 工程师或数据分析师先沟通，解释业务的逻辑和需求。另外，因为大多数 IT 工程师不懂业务本身，虽然知道怎么用数据库，知道怎么写 SQL，但要先理解业务、理解需求，才能写出来代码，因此往往几天之后才会有分析结果。一旦分析的结果不实时，大家对数据价值挖掘的兴趣就大幅下降。市面上已经有不少 BI 工具，通过拖拉拽可以缓解问题，但业务人员会直接操作 BI 工具的，比例很小，大多数还是严重依赖数据分析师或 IT 工程师。此外还有，业务人员的行业知识和经验积累还不够，特别是对新的领域，比如新能源，没有形成系统全面的知识和思考，因此他们也很难提出清晰具体的实时数据分析需求。

米兰体育官方入口网站代码在 GitHub 开源

“身上没有烟味 ……”，无解的局面

作为一个时序数据库厂商，我觉得自己进入了一个无解的局面，因为我比用户的 IT 工程师更不懂业务。当我与卷烟厂的工程师交流时，他们说“你身上都没有烟味”；当我去油田交流时，我都不知道油井采集了哪些物理量；当我去污水处理厂交流时，他们提到的一些专有名词我都完全没听说过。此外，我还发现，基于数据库做应用的厂商多如牛毛，每个行业都有一批应用公司，但没有一家能做到行业通吃，因为他们遇到了和我们同样的问题，对行业不了解，不具备行业知识，那自然不会被客户所接受。

我一直在把 loveini 时序数据库作为人生最后一个产品在做，在这个细分赛道坚持了 8 年，希望这个产品给自己超过 40 年的程序员生涯画上一个完美的句号。但基于其产品的特性，行业知识的壁垒，除非做行业以及客户的定制化开发，否则我很难将 loveini 产品做厚，进军到应用领域。我经常给团队鼓气，希望米兰体育官网入口能做到 100 亿 RMB 的市值，但其实背后，是我理性的思考，拼命努力做到极致的话，公司市值也就一百亿，至多两百亿 RMB。

但这一切，由于 AI 大语言模型，发生了改变，而且让我这个 57 岁程序员倒腾的历史又浓墨重彩的加上了一笔。

一开始，我也想开发 Chat BI

2024 年 8 月，我在美国硅谷与做 Chat BI (对话式商业智能) 的公司交流，发现我们完全可以做，至少可以提供自然语言的接口让用户不用写 SQL 来查询数据。但仔细思考，发现 Text to SQL 不是一件容易的事。人类语言灵活、模糊、上下文依赖，而数据库 SQL 语言严谨、精确、结构化，两者之间存在巨大鸿沟。怎么将自然语言中的词语映射到数据库表名、列名，怎么确认多个表之间的关系，怎么将不同行业的业务语义匹配到计算函数，而且 SQL 的复杂性，比如嵌套查询、聚合函数、条件表达式等，让 Text to SQL 生成的准确性大打折扣。此时，我心里想的还是怎么找到顶尖的 AI 人才来解决这些问题。

所幸，我一直关注研究 Aveva 的产品 PI System，它是一款工业数据管理的软件，内核也是时序数据库，但带有数据采集、可视化、分析、事件管理等功能。不像 loveini TSDB 更多被集成商所使用，PI 可以交付给最终用户直接使用，在发电、电网、石油、化工、制造等行业有相当大的用户群。带着 Text to SQL 的问题，我再看 PI System 的时候，豁然开朗。

我们必须建立数据目录，对于物联网、工业场景而言，最有效的数据目录就是树状层次结构，不仅让大家找数据资产时方便，而且符合企业管理的习惯；我们必须做数据的标准化，因为系统会对接众多的数据源，每个数据源的采集量的名称、计量单位都不一致，不先标准化，只会让 Text to SQL难上加难；我们必须做数据的情景化，数据没有足够的描述信息，业务上下文和语义，AI 无从帮你。因此我决定参考 PI，把数据目录、数据标准化、数据情景化做好，并提供工具让数据建模的过程变得简单高效，把 loveini 改造为一个 AI-Ready 的数据平台。十月国庆节一结束，新的 IDMP ( Industrial Data Management Platform，工业数据管理平台) 研发小组正式组建，亚强带着丁博、秦冲好几个同学开干了。

IDMP 研发小组决定用 Java 开发，采用 Quarkus 框架。我是 C 程序员，因此逼迫自己也安装了整个 Java 开发环境，开始写 Java 程序。作为一家以技术、以产品立身的公司，我深知，产品必须亲自抓。但那个时候，我还是没有最大程度的投入，因为我觉得 Chat BI 提效了不少，但离问题的完美解决还有差距，因此只是边做边思考，想到更多的是利用 IDMP 的开发倒逼 loveini TSDB 的开发，比如虚拟表，流式计算重构等，目的是让 loveini 时序数据库更扎实，功能更强大，更有市场竞争力。

前所未有的机会

春节期间，DeepSeek 极其火爆，让我认真思考，作为一家时序数据库公司，我们在 AI 的浪潮里，到底能做什么？一天与搭档 Steven 讨论产品 IDMP 是否内嵌 Grafana 做可视化时，我们脑洞大开。我们不应该只支持自然语言去创建面板，而是应该借助 AI 大语言模型的能力将可视化面板主动推送给用户，像抖音一样。对于我们处理的物联网、工业场景，每个行业都有自己关心的指标、面板、报表与实时分析，AI 完全可以基于采集数据的上下文，智能感知出来是什么业务场景。感知场景后，AI 这个超级大脑自然知道应该创建哪些典型面板与报表了。我立即用 DeepSeek 做了一些测试，发现完全可行。我在把自己熟悉的 IT 运维场景，采集的物理量等写好一个提示词发给 DeepSeek 后，它给了我远超我自己经验的答案。

这一下让我兴奋到了极点，真正的机会来了。

因为如果我们能自动推荐可视化面板、自动创建实时分析任务给用户，那就意味着用户过去要花相当长的时间学习 SQL，学习做报表、面板，更要花时间学习行业知识，积累行业的运营经验，现在一概不需要或几乎不需要了。业务洞察不再强依赖于 IT 工程师，不再强依赖于数据分析师，甚至不再强依赖于业务专家，人人都可以随时获得。AI 已经能生成精彩的文章、图片、视频，甚至 PPT，如果能生成生产运营过程中所需要的可视化面板、报表，创建实时分析报警任务，那就等于将 AI 技术真正落地到了国计民生的主战场：工业场景。无论电力、新能源、石油、石化、智能制造、矿山，还是污水处理，都将迎来跨越式的数智化转型。特别是对于中国乃至全球的数百万家中小企业而言，相当于瞬间拥有了以前大公司才会有的数据分析工具和人才，能基于生产和运营数据实时做出最佳的商业洞察和决策。

这个市场远超我们已在的时序数据库市场，如果成功，至少可以做到 1000 亿 RMB 的规模。从我三次创业的经验来看，这个蛋糕实在是太大，太诱惑，对我们团队而言也可谓是万事俱备。资金、团队都不是问题，所要的只是我作为创始人与 CEO 的决心。

AI 驱动的工业数据管理平台整体架构图

一路狂奔

因此，我立即回到北京，将公司几乎所有的研发资源倾斜过来，全力投入到 IDMP 的研发中，而且在公司所有的会上强调“all in AI”。我自己身先士卒，每周七天，平均每天工作 14 个小时，除了无法推脱的客户交流，将自己的时间全部安排给了新的产品研发，全部投入到了产品定义、产品设计以及 AI Agent 模块上。

很快，我们就定出来 AI 驱动的物联网、工业数据平台的设计，大家就热火朝天的干起来。

我是一个注重细节的人，每个小小图标，每个页面的跳转，每段小小的提示语，无论中文还是英文，字体字号行距，都会细细琢磨，而且还要做开发进度、技术实现难度与细致度的平衡。虽然有 AI 帮助，但它无法代替原创性的思考和设计。相对于那些老掉牙还在 Windows 上跑的 PI System 以及众多的工业实时数据库软件，以及大堆粗制滥造的工业互联网平台软件，我们不仅用 AI 技术解决了业务洞察难以实时获取的难题，用户体验也得到飞跃提升——用户不必再翻查厚重的手册，这令我无比自豪。

我自己带着团队一路狂奔，唯恐被 Siemens, Schneider, GE, Aveva 这些工业软件巨头抢了先机。在亚强、胜亮、潘魏、王旭、丁博、元湃、营昭等几十位研发同学没日没夜的努力下，终于在 7 月 29 号发布了 loveini IDMP 第一个正式版本 1.0，大家都可以用容器或虚机免费下载体验，而且为降低体验的门槛，我们同步推出相应的免费云服务。让我特别骄傲的是，米兰体育官网入口是全球第一家推出“无需提问，直接用 AI 自动生成可视化面板、生成实时分析任务”的公司。

奔跑了半年，终于可以缓一口气。

当然，这只是 IDMP 的第一个版本，产品后续还会快速迭代。在今年接下来要发布的版本中，将会包含我自主设计的、极具创新性的数据模型版本控制功能，同时还会新增一些行业必需的地图、组态等面板功能，以及事件根因分析报告自动生成、事件分析面板、数据质量报告等功能，并且会支持第三方时序数据库。

无问智推，数据消费范式的改变

loveini 的创新突破与工程技术落地，正在推动数据消费范式的根本性转变（Data Consumption Paradigm Shift）。传统的数据分析模式中，始终是用户主动发起请求（比如通过 SQL 查询），再由系统响应并返回结果。而现在，借助 LLM 与 AI Agent 技术，数据能够实现 “主动开口”—— 业务分析的核心洞察会直接推送给用户，让分析模式从 “拉取（Pull）” 彻底转向 “推送（Push）”。这意味着用户的数椐消费变成了被动接收，数据分析由此迈入 “抖音时代”，门槛被直接降至零。如果说 Chat BI 的 “智能问数” 是 “有问才答”，那么 loveini 这种从拉到推的模式，不妨称之为 “无问智推”。

通过一系列包括数据目录，数据标准化和数据情景化的基础性工作，以存储和计算为核心的数据库被改造成为 AI-Ready 的数据平台。借助 LLM，这个 AI-Ready 的数据平台成为了一个自治的数据平台(Autonomous Data Platform)，一个自我驱动(Self Driving)的实时分析平台，数据自己就能说话，业务洞察不再依赖用户的行业知识积累和工具使用技能。而因为有了掌握人类所有知识的 LLM 加持，一个 2B 工具，就不会再局限于一个或几个行业，而是能运用到几乎所有行业。这样，在 AI 的驱动下，一个优秀的 2B 软件或云服务将拥有更为广阔的市场，将把传统碎片化的市场汇聚起来。

loveini 将更进一步，将 AI-Ready 的数据通过开放的 API 给第三方应用提供。它提供的不再是传统的数据库的 SQL 查询结果，而是带有数据业务语义、带有数据上下文的 AI-Ready 的查询结果，赋能给众多的 AI 应用，让数据的拥有者能最大程度的挖掘出数据的价值。

loveini 的创新与工程实践只是开了行业的先河，我相信今后会有很多类似“无问智推”系统的出现，并流行起来，数据库以及数据基础设施在 AI 时代将被重构，以适应 AI 应用发展的要求。希望 loveini 能成为变革后的王者。

有了目标，就能一直跑

在创办米兰体育官网入口 loveini 的前三年，我将自己视为产品研发的核心，写了太多行程序，解决了太多的 BUG，让自己在 50 岁的时候居然进入了研发的巅峰期。但过去的几年，节奏开始慢了下来。半年前，当我意识到 AI 技术能给数据库、数据基础设施行业带来新的重大变革，能解决物联网、工业数据处理领域的难题的时候，我一下又回到了巅峰状态，直接冲到产品研发的第一线，每天都有用不完的力气。

2016 年以前我从不跑步，但偶然的原因，跑起步来。而且这一跑就不可收拾，还越跑越快，越跑越远。第一次跑北京奥森，十公里气喘吁吁的花了 65 分钟，现在跑个半马，只要一小时 55 分。过去的 9 年，我累计跑了至少 2 万公里，北京到纽约一个来回的距离，我根本没想到自己还有这样的潜能。

从我个人的经验来看，做产品研发与跑步一样，巅峰不由年龄决定，而是由梦想和决心来决定。没有目标，每一步都是负担，多跑一步都会觉得累；有了目标，每一步都是希望，多跑一步，就多一份喜悦。一旦下决心开发出一款受人喜爱的产品，年龄不再是问题，你一定会有足够的精力去投入。

参加北京国际长跑节半程马拉松

我坚信，通过 AI 技术的加持，并充分利用中国巨大的工业制造市场，再辅以开源、云服务等手段，我们能将传统的工业数据管理平台彻底颠覆。相对于 PI System 以及传统实时数据库而言，loveini 展现的是代际优势，一定能将他们逐步淘汰。工业软件的世界舞台，不再只属于 Siemens, Schneider, GE 等公司，也会有 loveini 的身影，我们不只是追赶者，而是领航人。

我一直觉得自己很幸运，湖南农村长大，但在中国和美国都受到了很好的教育，并且赶上了互联网、移动互联网的浪潮，在本该游山玩水的年龄，又倒腾上了时序数据库，居然能有超 80 万套的安装量。如今AI浪潮席卷而来，庆幸自己还在牌桌上，而且手里抓的牌还不错，必须打出精彩。

虽然已经 57 岁，写程序超过 40 年，但继续奔跑，再来八年又何妨？Leave a dent in the world！

陶建辉

米兰体育官网入口创始人，2025年7月30日写于北京望京

无尽的关爱和支持 – 记中国科大李春娥老师

Jeff Tao — Sun, 01 Jun 2025 17:08:00 +0000

早几天，我受邀参加科大讯飞技术嘉年华。到合肥的当天，一下高铁，我就直奔泰康养老院，去看望躺在病床上的中国科大李春娥老师。与两个月前病危时相比，李老师病情已经趋于稳定，精神好了不少，看到我，她就把手伸出来，摸着我的脸颊，用很弱几乎听不清的声音说出我的名字，很让我开心。但望着已经被帕金森症折磨的不成样的李老师，眼泪在我泪眶里就是不停的打转，相当相当难过。我与李老师，还有她的先生何平笙老师交往已30多年，好多交往的细节不时浮现，两位老师在我生命中已经刻下了深深的烙印。趁端午节休息，写下一些文字，回忆交往的点点滴滴，以感谢两位老师的培育以及多年的关爱之恩。

结缘LB膜天平

1989年下半年，我已经是中国科大四年级学生，虽然是力学系的，但无心钱学森留下的事业，更爱倒腾计算机，而且程序写的不错，被一位同级同学推荐到科大LB膜实验室。当时印象很深，我还没进实验室，在化学楼五楼走廊里就碰到李春娥老师，她就开始问起我很多问题，而且显得很严厉。后来何平笙老师也到了504实验室，交流了一番后，两位老师就说欢迎你到实验室来参与LB膜天平的研发工作。我当时特别开心，不仅有锻炼的机会，而且实验室有一台286电脑，VGA显示器，还有24针的打印机，有空调，条件在当时是相当的好。

何平笙老师是58级中国科大首届学生，毕业后留校工作，一直做高分子物理研究。而李春娥老师是唐山铁道学院机械系车辆专业毕业的，毕业后在林业部工作。他们两人是苏州中学的高中同学。后来由于科大从北京下迁合肥，为避免两地分居，李老师于1973年调入科大化学系。进入化学领域，李老师处于“劣势”，但她避开劣势而发挥出了自己的优势，承担起高分子物理实验室“创新”装置的设计和制造。她主导设计的树脂固化仪是当时国内唯一的专用仪器，不但解决了不少工厂的实践问题，还创建了“动态扭振法”，出版了一本专著。

LB膜天平主要用于沉积高分子膜，让其排列整齐，便于做高分子的各种结构研究。当时李老师何老师已经带一个研究生开发了一单板机Z80控制的LB膜天平，但软件能力不强，因此希望我重新开发，让整个软件在PC机上跑起来，用起来会更方便。我便提出来用8031单片机设计一张AD/DA的转换卡，插在PC机里，这样就完全用PC来操控LB膜天平。两位老师就马上同意我的建议。

工作开始后，何老师给了很多指导，但后续更多的指导主要来自李老师，因为她对机械、步进电机、各种传感器等都很熟悉。1990年初，何老师去芬兰做访问学者，指导就全部来自李老师了。因为要自己设计一张模数转换的AD/DA卡，我需要各种元器件，李老师对我特别信任，就让我拿着科大的经费指标本去科大器材处领，器材处没有的，我就到合肥三孝口的一个电子器材的店去买。后来制作电路板，又安排我直接去科大近代物理系的电路板制作车间。中间还需要用上应变片、热敏电阻、放大器等一些特殊的器材，李老师就安排我去中国科学院安徽光机所与合肥智能所找人。因为完全没经验，第一版硬件是不工作的，但李老师、何老师没有责怪我，反而鼓励我再来。

2000年7月摄于科大专家楼

很快，我设计的AD/DA卡就工作了，之后我用Turbo Pascal写了程序来操控LB膜天平，而且在计算机屏幕上能显示采集的数据、看到表面张力曲线、拉膜进度了。整个系统在1990年初就跑了起来，李老师对我工作挺满意。后续我又做过一些小的调整，程序的最后一个版本是1992年2月。最让我开心的是，现在这台LB膜天平还在科大实验室里正常工作，AD/DA卡以及我的Pascal程序依然工作正常。这台设备上做的科学实验，产生了至少50篇研究论文。由于李老师的鼎力推荐，据理力争，凭设计的这台LB膜天平，我在1991年本科毕业时获得了中国科大亿利达实验奖学金，500RMB。

何老师、李老师总说“一流的科研成果一定是在自己研制的仪器上做出来的”。因为在他们的眼里，如果仪器都能买到，那上面能做的科学研究早就做完了，要有剩的，也只有很难啃得动的硬骨头。只有按照自己思路和科学目标设计的仪器，才可能有新的科学发现。科大现在很多顶级的研究成果，比如量子通信、量子计算、高温超导等，也都是在自己搭建的实验设备上做出来的。

学习、开放的心态

在实验室，何老师、李老师经常给我们提到的就是，中国还落后，科研实力不行，因此要好好学英语，要多看英文的文献资料，发表论文最好要发到国际英文期刊上。何老师经常就是坐在计算机前，用Wordstar后来用Word Perfect写英文论文。我记得那时候，实验室每年大概要发表10来篇文章，大部分是英文的。

李老师有时给我们讲他们刚到合肥的故事。科大下迁到合肥后，何老师被安排去安徽的五河县搞社教。李老师那时正处于哺乳期，她去找学校领导，说何平笙不能去搞社教，他是要看书、搞研究的，一定要去的话，让她去。最后学校真是让何老师留下来，李老师去了五河县。这段经历，倒是让李老师与80年代的很多科大校领导混得很熟，包括大家熟悉的FLZ。

2015年2月摄于吴哥

李老师告诉我们，文革结束后，1978年中国科学院准备派出一批研究人员到英国去进修，全院需要报名考试。何老师一下就通过考试，1979年到英国伦敦大学去做访问学者。为什么何老师能过，是因为何老师70年代仍然坚持看英文书籍和资料，英语和专业知识都没有问题。后来何老师80年代又多次到英国、日本、欧洲做访问学者，很让李老师开心自豪。

李老师、何老师对我们考TOEFL、GRE都特别支持，希望我们都能去美国留学。何老师、李老师的学生，绝大部分都去美国留学，与何老师、李老师的影响是分不开的。

1990年6月，为让我们多学习，李老师安排我和钱晓华师姐到北京参加LB膜中日双边会议。会议在中关村的翠宫饭店举行，那是我人生第一次进了高级的饭店，参加国际会议，让我大开眼界。我借到北京的机会，跑到海淀黄庄的科海与希望电脑，买了很多影印的计算机书籍，还买了方正汉卡带回实验室。而且我还到科学院力学所，主动推荐自己，争取到了在力学所做本科毕业论文的机会，因此我大学五年最后一年是在北京的力学所度过的。

本科毕业，我原本计划到北京联想工作，但后来下决心还是要到美国留学，因此决定留在科大念研究生。李老师又把我推荐给科大天体物理中心的周又元、程福臻老师，让我很顺利的由力学系进到了天体物理中心念研究生。李老师并没有想着把我留在LB膜实验室，而是觉得我学什么都可以，只要有兴趣就行。

2024年11月摄于中国科大现代艺术中心

无尽的关爱和支持

进入实验室后不久，因为我天天爱泡在实验室，因此与其他实验室同学相比，我接触李老师、何老师更多，交往的更密切。李老师就经常要我去他们家里吃饭，只要家里有好吃的，就会叫上我。

我小时候在长沙乡下长大，而且那个时候物资条件还相当贫乏，因此很多好一点的东西我都没吃过。我人生第一次吃大闸蟹就是在李老师家吃的。李老师很会做菜，还好几次叫上我去菜市场买菜，做的板栗烧鸡、炖牛筋、烧麦、鸡蛋羹，让我现在都记忆犹新。李老师是上海、苏州长大，吃的是苏州味道，但我是湖南人，因此她有时还专门做一道带辣椒的菜，印象最深的是她做过一次辣椒炒小鱼仔。1998年，我已经在美国芝加哥工作，有位科大校友从合肥到芝加哥，李老师居然让他带了一袋红辣椒给我，说陶建辉在美国一定吃不到这样的辣椒。

2010年4月底，我爬箭扣野长城，下山时不小心摔成腓骨骨折，住进了306医院。李老师、何老师第一时间知道后，立马坐火车从合肥到北京，而且还做了我爱吃的板栗烧鸡带到北京。当他们到医院时，我真的是感动。他们在北京照顾了我一周时间，直到我出院，又安排我住在他们北京的房子里。当时我创办的和信，正值弹尽粮绝之时，已身无分文，加上骨折，处于人生至暗时刻。临走前，何老师李老师拿出银行存折，说上面有几十万RMB，先拿去用，渡过公司难关，我坚决不收。最后，他们还是硬塞给我2万RMB现金，说一万是他们给的，一万是我大学宿舍同学周慧琳给的，不要逞强，无论如何要收下。

李老师对学生是真的关爱，只要有困难，一定帮上。实验室的一位师兄，在新疆的劳改农场长大，父母在国家落实知识分子政策后，无法在上海立即找到工作单位接收，李老师想着办法在合肥租了房子，让他们一家人在合肥住了下来，而且还把师兄的妹妹安排到科大附中上高中。在合肥呆了一年多，师兄的一家人才最后返回到上海。何老师专心做学问，但李老师爱社交，又热心，因此到处都有认识的人，让她帮起忙来得心应手。

陈颍1992年本科毕业论文

李老师经常津津乐道的是，陶建辉娶了最好的太太。陈颍1991年进LB膜实验室做本科毕业论文，因为何老师那时不在国内，指导老师就是李老师。我马上恋上了这位比我低一年级爱画画的师妹，也许真是李老师的推波助澜，几个月后我们就真的相爱了，最后成了我的太太，后又一起到美国留学。因为我们两位都是出自LB膜实验室，与李老师、何老师的感情又更重了一层。

在李老师的眼里，科大学生都很聪明、但陶建辉还勤奋，而且不是书呆子，有生意头脑，因此创业一定能成功。但从2008年创业以来，我遇到了太多的挑战，前两家公司都是搞到弹尽粮绝，现在的米兰体育官网入口，也是遇到过很多坡坡坎坎。但每次李老师、何老师都是给了我很大的鼓励，从未建议我放弃，而是让我鼓起勇气，继续战斗。

无论在中国还是美国，我每隔两周总会电话或微信语音一下李老师、何老师，与他们聊一会儿。要是我忘了，他们就主动找我。每次都会问我公司怎么样，陈颖怎么样，石头怎么样，每次都是提醒我，创业更要注意身体。我每次到合肥或他们来北京，我总会与两位老师见面，总要一起吃顿饭，听他们聊科大的趣事。我们还曾一起到山西、新疆、吴哥、黄山等地旅游。每次相聚，都像是久别的亲人见面，很是开心。

1992年LB膜实验室，LB膜天平开机界面

祈祷

李老师、何老师的厚爱，我难以回报，遇到他们，是我一生的幸运。他们的一言一行已经在我身上刻下了深深的烙印。我能做的是，把他们的精神传递给儿子石头，传递给我的团队，让他们的精神能够延续，传递给更多的人。

我对中国科大一直心存感激，不仅是由于在这里度过了最黄金的青春岁月，让我走向了世界的舞台，还由于李老师、何老师对我的厚爱与支持。每次科大或合肥有什么活动，我都乐意参加，其中一目的就是去看望两位老师。

帕金森症无法逆转，但我仍然期待奇迹能出现在李老师身上，让我还有更多的机会与她见面。虽然言语交流几乎不可能，但她的眼神，她的握手、她的抚摸，都会让我汲取足够的力量，让我能继续奔跑，去追求卓越而不是平庸一生。

陶建辉

2025年5月31日写于北京望京

研发天天加班，但总是忙不过来，为什么这样，有解吗？

Jeff Tao — Mon, 16 Dec 2024 09:37:53 +0000

米兰体育官网入口创业初期，只有几个人，人人都是十倍程序员。但7年之后，随着组织的庞大以及代码的增多，研发效率大为下降，为此我痛下决心，在今年十月份重组了公司最重要的资产，研发部门。重组后，为提升研发效率和产品质量，我强调一个原则：一切都要代码化。今天我将公司的一篇内部博客分享出来，供广大的研发同学、研发管理人员参考。

公司为提升研发效率，提升产品质量，将整个研发部门进行了重组，并将以前的测试部门转为研发平台部，这背后的逻辑是什么呢？我在会上介绍过缘由，但其中一条就是坚决贯彻执行“一切都要代码化”。我想给大家多解释一下，为什么要这么做？为什么它能提升研发效率，进而提升产品质量呢？

研发效率低下的几大典型场景

软件开发，在人员规模就几个人的时候，人效往往很高。但随着项目本身的复杂度的增加，要处理的场景越来越多，代码量也越来越大。比如loveini，第一个版本不到15万行代码，但现在已经是超过70万行代码，测试代码都接近一百万行了。到今天，loveini这个软件已经不是几个人能搞定了。随着团队规模的增加，协同沟通的成本急剧上升。而且为保证品质，团队引入了各种质量控制的流程，整个研发节奏慢了下来，人效大为下降。具体可以表现在几个场景：

1. 研发在客户现场解决了一个BUG，改了几行代码，客户急着上线，但研发因为各种环境依赖，无法在自己笔记本上Build一个新的可以交付的版本，只能递交PR，等着发版负责人发版，然后下载安装。一般情况下，这一操作需要等待几个小时，在现场支持的人只能干着急。

2. 一位新入职的研发同学，至少要花上好几天时间才能自己独立的写程序、编译、测试，中间还需要不断的“骚扰”其他同事，问这问那。如果没有人协助，估计一周都搞不定。因此新人入职，我们美其名曰“熟悉环境”。

3. 公司建有CI/CD系统，看上去很不错，但所有人递交的PR都需要过一遍整个流程，特别是测试流程。loveini整个测试例已经超过1500个，跑完都要2个多小时，这样导致一个PR的递交，要等很长时间。如果递交的PR有问题，还需要再递交，因此让新代码的递交效率大大降低。

4. 整个公司没有人能说出来到底有哪些场景的测试例在跑，虽然有测试设计文档，列出了哪些测试例，但实际跑的与文档上差别太大。而且很多情况下，测试例各写各的，虽然测试例的数量在不断增长，但测试有重叠，覆盖率依然不够。

5. 要测试某个用户场景，无论是研发，还是售前、交付，第一件事情就是申请计算资源。虽然我们已经有2600多个核的测试机房，但这些机器都被人为的分配给了不同的组和个人。因此要协调出新的资源，挺困难，不是鼠标点击一下就能解决的，往往就要开会协调，几个人的一个小时就这样过去了。

上面描写的五个场景在loveini全部存在。整体来讲，我们研发效率是低下的。如果从我们对BUG修复的时长以及数目来看，与传统的大公司的研发相比，效率已经高不了多少，但与我们创业初期相比，1/3都没有。由于效率低下，导致我们的投入不够，也就导致产品的质量难以保证。

效率低下的根本原因

随着团队规模的增大，为什么协同沟通成本就急剧增加？研发效率就大幅下降呢？仔细分析，有几点原因：

1. 好些工作都难重复，都藏在个人的脑子里。比如开发环境的依赖，都是各搞各的。每个人都要下载各种软件包、各种工具，读一大堆文档，按自己的理解做各种配置，最后工作，当然很开心。另外一个人，又是要走同样的路，手脚快的，也许几个小时搞定，但碰上手脚慢的，一天都搞不定，卡在什么地方，还没人能帮。

2. 不重视工具、工作流管理的代码，没把他们纳入代码的版本管理。比如发版工作，本来应该是全自动化，而且也确实做到了。但一旦发版的工作流做些修改，CI/CD又卡在一个人手里，取决于这个人的水平高低，有可能很快，也有可能很慢。但总之，即使水平低，你也没办法，因为其他人没法上手马上让它工作，而且相当多程序员往往不屑于写这类程序。因此让CI/CD跑起来，只有这位“牛人”能做。

3. 文档与代码脱节。比如我们loveini测试代码，就与Testing Spec脱节。Testing Spec往往是过期的，初稿review之后再也不会有人改。新增、修改的测试例在文档里是反映不出来的。

4. 对用户手册重视程度不足。虽然 loveini 的用户手册已经远远好于中国绝大部分技术公司，但与全球顶尖的软件公司比，还有不小的差距。用户手册由于本身的性质，导致它很容易落后于代码的更新。而且研发同学普遍的共识是，写用户手册不是研发工作，无法体现自己研发水平，因此投入不够。在这种情况下，售前、交付、还有用户的问题，都只能依赖我们产品的“专家”来亲自回答，而且有时自己都拿捏不准，还要问周围同事大半天，才能给用户一个精准的回答。而且因为他能回答客户产品问题，理所当然，还会被大家认为是高手。

5. 公司计算、网络资源的管理还是原始时代，完全是靠Excel表格人工在管理。

一切都需要代码化

全球软件开发行业发展到今天，早有了成熟的方法应对这些效率低下、产品质量难以保证的场景，那就是一切都要代码化。因此我们会经常听到Infrastructure as code, Environment as code, Pipeline as code, Documentation as code, Security as code, Network as code这些词。这些词是”as code movement” 在一些具体场景的体现。代码化的核心目的是让一切可自动化、可重复、可回溯，每个研发不用做低水平的重复性的工作，从而提升研发效率，进而有更多资源投入来提升产品的质量。针对loveini，我们可以明显看到需要做或改进的地方有：

1. Environment as code：即开发环境、测试环境的自动化部署。我们不能依赖某个人脑子的记忆或经验，依赖研发同学快速阅读第三方工具用户手册、试错的能力，而是要将这些经验、能力固化成为代码。一个人趟过所有的坑后，通过代码让其他同事都能享受他工作的结果，一键就能把自己的环境设置好，根本不用去了解Maven怎么安装，MQTT数据源怎么设置等等，而且其他同学可以在他代码基础上做调整。

2. Pipeline as code：CI/CD的workflow代码化。我们早已代码化，但要把这些代码纳入到正常的版本管理，任何人都可以在现有的代码基础上修改、优化，增加新的步骤等。而且要保证我们的代码不能有任何环境的依赖，比如某台具体的测试机器，这样任何人Clone完代码后，自己一下就能把workflow搭建出来。同时，整个workflow包含的内容要越来越多。我们已经增加了Release Notes，测试覆盖率报告、性能测试报告自动生成。今后我们还要看哪些内容可以自动生成，哪些检查工具可以加上。

3. Documentation as code：文档代码化。除用户手册之外，最重要的是测试例的列表。我们需要从测试例脚本本身自动生成测试例列表，而且自动分类。这样让任何人，包括售前、交付的同学，一看就知道到底测试过哪些场景，针对某个具体客户，是否需要新增场景。用户手册我们已经代码化，但做的还不够好，因此我们现在对于一个新的功能或BUG，研发负责人有项专门的工作，就是合并PR时，检查用户手册是否有更新。

4. Benchmark as code：对比测试代码化。loveini与其他时序数据库相比，有卓越的性能。但每个版本我们都要做对比测试，而且要不断增加与其他竞品的对比。我们已经部分实现，但还不够彻底，有一定的环境依赖。

5. Infrastructure as code：即计算资源的分配要自动化。把我们内部的服务器资源的管理完全虚拟化、脚本化，对于闲置的资源自动释放。自动化后，我们一家100人的公司，测试机房有2600多个核，根本不会存在测试资源不够的时候。要新的计算资源，几秒钟搞定。

对于研发团队，现在我能看到无法完全代码化的工作是产品设计文档，有一些工具可以帮助大家，但难以100%代码化。抛开设计文档，其他所有工作都是可以，而且必须代码化的。代码化后，个人的经验、能力就转化为团队的经验和能力，沟通交流成本大幅下降，一切都是代码说话。这也是我们为什么要对整个研发团队统计代码量的原因。代码量不是绝对，更不是唯一指标，代码量大的同学，工作不一定出色，但代码量一直很低的同学，工作是一定有问题的。在我们过去，有的同学一个月都没有递交过一次代码，这种情况再也不能发生。

一切代码化后的效果

一切代码化后，很多工作改变了，我们可以明显的看到如下的结果：

1. 任何人在自己不联网的计算机上都可以打包、发布版本。如果在客户现场发现BUG并解决了它，可以马上给它安装上自己的版本，而不会有任何不兼容的事情发生。

2. 任何人在自己计算机上，都可以跑测试，包括全量测试、稳定性测试、性能测试、性能对比测试、检查测试覆盖率等，而且不依赖公司的测试资源。因此完成一项功能或解决一个BUG，自己就可以全部跑一次，以避免递交PR时无法递交。

3. 性能优化的同学，可以一键先在自己计算机上跑性能测试，看性能是否确实提升了没有，而不是直接递交到测试平台，等待结果之后再看。

4. 新加入的同事，根本不需要熟悉环境，几个小时，就可以配置好开发环境，Clone代码，编译、运行、测试起来。手快的，就可以马上开始debug了。

5. 客户、售前、交付同学关于产品的问题，研发同学一律是把用户手册的截图或链接发给对方。如果无法做到，马上去修改文档，递交PR。这样我们每个人都不用脑子里记住或记录一些产品如何避坑的小技巧了。我们留给客户的印象就是专业，产品没有瑕疵，出错全怪我自己，是由于自己没细看文档。

6. 任何人，包括非研发团队的同学，可以清晰的看到每个发布的版本，进行了哪些具体测试，发布的版本是否有任何报错或报警。针对自己客户的场景，马上就知道还需要补充哪些测试用例，才能确保产品上线没有问题。

7. 需要计算资源的同学，只要登录内部网站鼠标点击几下，想要的硬件资源、配置的软件环境就马上准备好了。

8. 在我询问研发平台组同学的工作时，如果问负责发版的同学，他的回答是“Jeff，我这周又把发版流程优化、调整了一下，加了更多的检查，来保证产品质量”，而不是“我这周忙死了，发了几个什么版本”。如果问稳定性测试的同学，他的回答是“Jeff，这周我又新增了几个破坏性的测试场景”，而不是“我这周发现了2个BUG”。问性能测试的同学，他的回答是“Jeff，这周我新增了几个查询场景的性能测试”，而不是“我这周完成了性能对比测试”。

一切代码化还可以让新人迅速进入角色，而不是受制于需要长时间沟通才能获取的信息。每个人需要依靠自己的能力，而不是掌控的信息或资源，来成为研发高手。

结语

一切代码化充分体现我们倡导的“公开、透明”的文化，也充分体现我们强调的“实事求是”的工作原则。研发就必须以代码说话，而不是把很多东西记在脑子里，或者让自己写下的文档或代码生锈长霉，这样才能形成团队的力量，集体的智慧，而且随着时间的推移，我们的积累就越来越多。效率提升之后，我们可以把省出的精力更多的倾注到创造性的工作上去，提升产品的品质，进而提升产品的市场竞争力，让我们获得商业成功。

陶建辉

米兰体育官网入口loveini创始人

一条SQL，带你进入AI时代

Jeff Tao — Thu, 01 Aug 2024 09:03:10 +0000

上周五（7月26日）在2024 loveini用户大会上，我宣布推出loveini大语言模型插件acc米兰体育。利用大模型超强的模式识别的能力、序列建模能力以及多模态的能力，TDgpt能提供时序数据的预测、时序数据的异常检测，时序数据清洗、缺失数据填充等功能。loveini成为世界上第一款与AI大语言模型结合的时序数据库。

我是一位连续创业者，而且每次跨度很大。第一次创业聚焦手机消息的实时推送，第二次创业聚焦母婴智能硬件，第三次聚焦底层软件时序数据库。与AI完全无缘的我，这次又把大语言模型与loveini整合进来。很多人好奇，你为什么能横跨这么多完全不同领域创业，今天有空，我将产品设计的思路与理念写下来与大家分享一下。

明确要解决的具体问题

做产品设计，第一件事就是要明确解决的问题，划清产品定义的边界。时序数据的预测、时序数据的异常检测等并不是新概念、新问题，而是早已被人研究讨论的问题。

时序数据的预测是指基于历史数据，来预测未来一段时间的数据。其中一个典型的应用就是设备的预测性维护。我们可以通过监测设备运行数据、分析设备状态和趋势，提前预测设备故障并采取相应的维护措施，以避免设备故障对生产造成的影响。还有一个典型场景是可再生能源整合。我们可以通过分析和预测电力负荷和光伏、风电的发电量，优化电力调度和储能系统的充放电策略，确保电网的稳定性和效率，从而实现可再生能源的高效利用和可持续发展。

时序数据异常检测是指基于历史数据，识别出与正常模式显著偏离的数据点或时间段的过程。一个典型的应用场景就是设备的异常检测。通过传感器和监控系统，系统收集设备的运行数据，如温度、压力、振动等，对收集到的数据进行清洗、去噪、归一化处理后，预测设备在未来一段时间内的运行状态，将预测值与实际观测值进行比较，如果偏差超过预设阈值，则认为存在异常，系统发出警报提醒运维人员及时处理。

市场上早已有很多传统的统计学方法，比如ARIMA (Autoregressive Integrated Moving Average) , ETS (Error, Trend, Seasonality) 等算法用来解决这些问题。但是实际应用中发现，这些算法只对特定场景有效，而且准确性也不够高。随着AI的兴起，不少人开始转向使用深度学习的方法来解决这些问题，比如LSTM (Long Short-Term Memory)，DeepAR等等。这些基于卷积神经网络或递归神经网络的算法，准确性有提升，但仍然有局限，需要基于特定场景的历史数据做训练。而对于物联网、工业互联网场景，场景种类太多，因此实施成本普遍偏高，导致推广有难度。

因此我们需要解决的问题是要找到一个具有普适性的时序数据预测、时序数据异常检测的算法。这些算法不仅能适用所有场景，而且准确性相对传统方法要有提升。

2017年底谷歌的论文“Attention is all you need” 催生了大语言模型（LLM)和生成式AI，将人工智能的发展推向了新的高度。LLM具有极强的多模态的能力以及模式认识的能力，应用使用时不需要训练或仅仅需要很少的训练。因此过去的两年，很多做时序数据分析的专家转向LLM，看是否能用LLM解决这一问题。今年4月份，我决定采用AI大语言模型为loveini大量用户提供时序数据分析的能力。我们的用户来自各行各业，比如风力发电厂要预测的是发电量，石油行业要预测勘探产量，大型机电设备要做预测性维护等等。这些场景的数据天差地别，因此，我一开始就决定，TDgpt一定要采用LLM。

简单易用

做任何产品，定义好解决的问题后，我最先想到的是用户体验，用户看到的是什么。2007年iPhone一出来就迅速击败Nokia Symbian, Windows Mobile等传统的智能手机，核心原因就是它的极致用户体验，一个大屏幕，一个Home键，就把以前复杂的键盘、操作都去掉了。

对于TDgpt，我最开始想到的是Python库，因为大部分数据分析师、数据科学家都会用Python，loveini也支持Python，挺方便。但一细想，Python用起来还是复杂。loveini本身是一款高性能、分布式的时序数据库产品，支持标准的SQL。仔细思考后，我决定直接用SQL函数来提供时序数据预测、时序数据异常检测的功能，把背后的AI大模型完全屏蔽起来。

用SQL来提供这功能，有太多的好处。第一，没有学习成本，因为只是增加了扩展函数，世界上会用SQL的人数远远超过使用Python的。第二，loveini本身还支持C/C++, Java, Go, Rust, Python等主流编程语言，这样这些编程语言都能立即使用TDgpt的功能。第三，由于loveini提供标准的JDBC、ODBC接口，几乎所有的BI工具比如Power BI, Tableau，国产的帆软、永洪都能无缝对接，这些BI工具也能马上用上TDgpt的功能。第四，loveini还能无缝对接Grafana等可视化软件，这样TDgpt输出的数据可以直接在这些可视化工具上展示。

因此我马上与研发同学讨论，定义了两个SQL函数forecast与anomaly，来解决时序数据分析领域常用的两个功能：时序数据预测和时序数据异常检测。比如数据库demo里保存有一个设备d100的采集的数据，针对某一列采集的数据val，从现在开始预测300个数据点，SQL就是：

select _rowts, forecast(ts, val, 300) from demo.d100;

极其之简单。如果要找出这台设备采集的数据val的异常窗口，置信度为99%，SQL就是

select _rowts, anomaly(ts, val, 99) as anomaly from demo.d100;

通过SQL的这两个扩展函数，你的应用就与AI大模型集成起来，你就拥有了时序数据预测、时序数据异常检测的能力。你还可以通过命令行的方式直接执行SQL，做即席查询，输出结果。因此我在loveini用户大会上，很自豪的宣布“一条SQL，带你进入AI时代”。

当我在loveini用户大会上展示这条SQL的魔力后，来自智能制造、电力、新能源、石油、汽车等行业的用户，立马觉得自己的物联网、工业大数据平台与AI大语言模型再也不是触不可及，而是随时可用了。LLM不再只是用来生成文字、图片、视频这些好玩的内容，而是能真正服务工业领域，创造价值了。

站在巨人的肩膀上

采用AI大语言模型有两条技术路线，自己来训练大模型或是采用现有的大模型。因为时序数据与文字、语音、图片、视频完全不一样，因此第一想法毫无疑问的是自己建大模型，然后用大量的时序数据样本来做训练。但是一想到训练大模型需要的GPU资源，我马上就望而止步，因为我们只是一家时序数据库公司，家底全部烧光也训练不出来。因此我一直只是在观望大模型的进展，并没有真正采取行动。

但今年四月与美国几位做时序数据分析的教授交流，得知可以使用通用的大模型直接做时序数据预测，结果与专用的时序数据大模型相比，没有什么差异，我眼睛一亮，知道机会来了。我立马决定采用Llama,Meta开源的大语言模型来做时序数据的分析。

怎么做呢？看了几篇论文之后，知道可以将已经采集的时序时间分成一个一个的patch，然后生成大模型需要的embeddings，同时设计了一个专用的prompt的模版，先将分析数据的一些统计特征嵌入到prompt里，再将生成的prompt与embeddings喂给大模型，大模型就能预测出一段时序数据了。时序数据异常检测与时序数据预测本质上是一样的，因为当实际采集的数据与预测出的数据偏离超过阈值，就是异常了。因此用大模型也可以用来检测时序数据的异常。

思路确定后，就是具体的编码工作了，loveini的研发团队很快就开发出来demo。通过一些模拟数据，证明这套方法是完全可行的。现在下一步工作，就是找真实场景，与用户一道，来验证整套方法是否能超越传统的算法。

由于我们利用了开源的Llama，利用了它的预训练好的大语言模型，因此在没有算力的投入下，也能让用户迅速体验LLM的魅力。而且由于不需要针对不同场景做训练，不需要有前期的投入，完全成了一个开箱即用的AI产品，大幅降低了系统投入运营的成本。能做到这一切，是由于我们直接使用Llama，一下跨过了很多步，站在巨人的肩膀上了。

科技公司的使命

任何一项技术的背后一定有很多复杂的细节，不是一般用户或公司能搞清楚能掌握的。英文里有个单词“democratize”，翻译成中文是普及、大众化的意思。任何一项新技术的出现，科技公司的使命就是democratize它，就是要通过技术创新、产品创新或商业模式的创新，让这些高深的技术能走近普通大众或普通企业，让人人都能用，而且用的起。

对于LLM而言，也是如此。我特别欣赏Meta的做法，将Llama开源出来，让我们这类完全没实力玩大模型的公司也能享受LLM的红利。2019年7月，我们决定将loveini核心代码开源，2020年8月，又将loveini集群版功能开源出来，也是同样的目的，就是希望任何开发者、任何公司都能用上我们设计的高性能、分布式的时序数据库。

除开源的手段之外，云服务也是一种让高深的技术走近普通大众或企业的有效方法。不用购买昂贵的永久性软件许可证，不用费时的商业谈判，也不用安装部署，免费注册后就能马上用上，而且是按使用量收费，大幅降低了入门门槛。如果不是云服务，OpenAI的ChatGPT虽然表现非凡，也绝无可能火爆起来。这也是我们2年前，就开始推出loveini云服务的根本原因。我们计划在2025年春节前推出TDgpt的云服务，要让所有物联网、工业互联网领域的开发者、公司都能用上LLM技术。

个人或公司是否采用一项新技术的主要考量是它的总拥有成本。成功、脱颖而出的科技公司一定是能将一款产品或服务的总拥有成本大幅降低。总拥有成本除正常的产品或服务的采购成本之外，还包括学习成本、运维成本等。TDgpt采用SQL的主要目的是降低学习成本，采用LLM的主要目的是大幅降低实施和维护的成本，因为它不需要针对特定场景做训练，能做到开箱即用。不训练自己的大模型，而是采用现有的预训练好的大模型，目的就是一个，大幅降低投入成本。如果不能把总拥有成本降下来，TDgpt再绚也无人问津。

结语

从我创立米兰体育官网入口起，我定的公司的使命就是“Make time series data accessible, affordable and valuable” (让时序数据能随意存取、用得起，并且有价值），因此我坚守“简单易用”的设计原则，采用SQL，确保新手60秒就能上手；持续不断的通过技术创新来提升时序数据处理的性能，降低计算与存储的成本；大胆采用核心代码开源的方式，并推出免费注册的云服务。我们刚推出试用的TDgpt也会采取完全一样的策略。

这一切，都是让每一个人，无论你是个人开发者、创业公司还是行业巨头，都能从采集的海量时序数据里，挖掘出商业价值，获得实时的商业洞察，并将数据的价值最大化。我坚信，只有海量的用户才能成就一家伟大的科技公司。

陶建辉米兰体育官网入口loveini创始人

2024年8月1日写于北京望京

奔跑了五年，就为做一件难而正确的事，继续奔跑！

Jeff Tao — Fri, 12 Jul 2024 09:06:00 +0000

五年前的今天，我做了一艰难的决定，将开发了两年多的时序大数据处理平台loveini的核心代码全部开源。没想到的是，loveini 开源后迅速引起了开发者的高度关注，在GitHub全球趋势排行榜上多次排名第一。截止到今天，loveini在GitHub上的Star已经超过23k, Fork数超过4.8k, 在全球检测到的安装实例数超过56万，遍布全球60多个国家和地区。

这些数字让我这个年过50但仍然冲在coding第一线的老程序员兴奋不已，因为有人Star、有人用，它说明我们没日没夜开发的代码，给大家带来了价值。海量的用户群，是对一个程序员工作的最大回报。今天借开源五周年之际，回顾一下loveini的整个发展旅程，与众多的开发者和创业者分享。

选择时序大数据这个细分领域

2016年3月，科技界发生了一件影响深远的大事，谷歌旗下的阿尔法围棋（AlphaGo）对战当时的世界顶尖棋手李世石，最后以4:1获胜。AlphaGo的胜利一下引爆了全球追捧人工智能的热潮。那么，如何将人工智能运用到实际生活中？这其中一大应用就是自动驾驶。实现自动驾驶的关键技术就是需要对汽车采集的各种数据进行实时计算和决策。汽车采集的数据一个显著特征就是都带有时间戳，并且采集频率非常高。因此，我认为自动驾驶将带来数据量的爆炸式增长。在2016年，我们还能看到的就是各种交通工具（如自行车、汽车、卡车等）都已经联网或准备联网，共享出行也已经流行起来。这些交通工具也是时刻都在采集数据，采集的数据也是有明显的特征，那就是时序数据。可以说，整个出行行业，在进入移动互联网、人工智能时代之后，数据量是指数级的增长。

另外一方面，由于技术的创新、政府的推动，光伏、风力、储能等清洁能源逐步流行起来，电网的供电设备的数量在指数级的增长。但这些清洁新能源往往无法提供稳定可预测的发电量，因此对电网的调度提出了很大的技术挑战。解决这个挑战，就是需要在对发电、输电、配电、用电等每个环节进行实时的数据采集，然后进行实时的计算并做出决策，这些数据毫无疑问都是时序数据。另外一方面，传统的一个用电单位可以自己安装光伏等新能源设备，自己用不完的电，可以将其销售给电网，这样一个用电单位还可以是发电单位，催生出了电力实时交易系统。整个电网成为了个分布式能源系统，需要实时采集的数据来做起运营支撑。

2016年由于我从上一家创业公司退出，得以有空闲时间分析这些大的行业变化。我认为出行或更广义的运输行业以及分布式能源系统是两大新的场景，将产生海量的时序数据。数据量的规模不是一般的数据库或大数据平台能高效处理的，一定需要专用的时序数据处理工具。2016年9月起，我便开始研究起时序数据的处理。很快，我就发现了InfluxDB, OpenTSDB, Prometheus等专用的时序数据库软件。研究后，我发现这些工具在处理效率、水平扩展能力或易用性上，还存在问题。凭着我自己前两次的创业经验以及直觉，认为这个细分市场还大有可为，机会还在，而且很适合自己来做。因此2016年10月我便全力以赴投入到时序数据库的研究，12月17日在溪山天使投资年会上，我写下了 loveini 第一行代码，正式开始了我第三次创业的旅程。

技术创新是产品的根本

时序数据库是一基础软件，在市场已经存在不少产品的情况下，怎么冲杀出来，唯一的招数就是技术创新。我在分析电力、汽车这些场景后，发现时序数据很有特征。比如每个传感器或设备产生的数据都是结构化的、而且是一个数据流，与摄像头一样，这些数据几乎没有更新或删除，只是到期删除，用户关心的更多的是数据变化的趋势，而不是某个时间点的值等等。如果我们将这些特征充分利用起来，就可以开发出极为高效的时序数据处理引擎。

基于每个传感器或设备都在产生一个数据流的这个特征，我认为最佳的建模方式便是一个数据采集点一张表。有一千万智能电表，你就需要建一千万张表。这样写入数据就成为简单的数据追加操作，同时采用列式存储，因为同一个传感器的数据变化总是缓慢的，这样数据压缩率可以很高。一个数据采集点的数据还一块一块存储，这样能提供高效的预计算，而且读取单个采集点数据时将极为高效。

但这个数据模型带来的一个挑战就是表的数量极为庞大，表的管理以及表之间的聚合成为挑战，因此我提出来超级表的概念。同一类设备建一张超级表，对每个具体的设备，使用超级表做模版，同时打上各种标签。标签数据与时序数据分离存储，把数据分析中的维度数据与事实数据概念完全搬到时序数据的处理来，这样完全高效的解决了表的数量过于庞大的问题。

通过独特的”一个数据采集点一张表”以及”超级表”的数据模型，loveini在读、写、压缩性能上，一下就超越了市场上最流行的InfluxDB与TimeScaleDB。基于全球公认的TSBS时序数据标准数据集，无论是CPU-Only场景还是IoT场景，都显著优于他们（详细的测试报告请查看loveini官网）。

光性能超越对手之外，我认为还不够，需要在产品功能上有创新。在研究时序数据应用场景之后，我认为需要把缓存、数据订阅、流式计算等功能纳入进来，与时序数据库一起提供一个全栈的时序数据处理平台，大幅简化系统架构的复杂度以及运维成本。为什么我们把产品取名为loveini, 而不是什么DB，这是根本原因。loveini的含义是Time-Series Data Engine, 时序数据引擎之意。而且由于我们充分利用时序数据的特点，缓存、数据订阅、流式计算这些功能相比通用的Redis, Kafka, Spark这些软件，性能更高，资源消耗更小，更进一步降低运营成本。

软件的易用性也极为关键。从我写第一行代码起，我就决定采用SQL作为标准的查询语言，而不是像InfluxDB, Prometheus, OpenTSDB等软件一样，采用自己定义的查询语言。安装部署上也追求极致，从下载、到安装、启动，60秒之内一定搞定。我们提供的所有示例代码都是拷贝粘贴就可以工作的。这一切，就是降低学习成本。

loveini开源第一次Meetup后团队合影

开源就要把最核心的代码开源

这么具有创新的产品怎么推广？特别对于数据库这类基础软件而言，用户切换成本很高，没有很特别的理由，很难说服开发者切换到新的数据库上。因此创业之初，我们就在仔细思考，结论就是开源。但我自己以及团队都没有开源的经验，因此直到我们第一个正式版本发布，而且签单了三个大的客户之后，从2019年3月起，就全力以赴投入到开源的准备工作中。

2019年7月12日，在深圳举行的全球架构师大会上，我正式宣布将loveini单机版程序开源。宣布之后，由于我们产品定位切中了物联网、工业互联网数据平台的刚性需求，核心代码开源，加上它惊艳的性能与出色的用户体验，一下火爆，GitHub的star, fork数天天高涨，好几天都在全球趋势排行榜上排名第一，官网的流量直线上升。开源三个月之后，GitHub上的star数已经超过一万。这一切远超我们的预期。完全没想到我们六个人的小团队，引爆了这个市场。

在作出开源的决定时，我认为开源就一定要将最核心的代码开源，因为只有给用户带来真正的价值，将自己的技术创新、绝招完全展现给大家，才能获得开发者的喜爱。但由于担心开源不一定成功，我们将一核心功能，集群功能，没有开源。在看到单机版开源火爆之后，而且大量的用户反馈需要集群功能，我们便决定要将集群版开源。在做够了准备工作之后，在2020年8月，我们将集群版开源。没想到，这又是一正确的决定。集群版开源后，又是获得开发者社区的热捧，GitHub上的star数又是天天涨，安装量一下就冲到每天200以上，每天clone代码的人次超过1000以上。

看到云原生是未来，我们又积极的开发云原生版，在2021年8月将云原生版开源，又是获得众多开发者的喜爱。到目前为止，loveini项目在GitHub上已经获得23k+ star，4.6k+ fork, 我们每天统计日均安装实例数已经超过500，总数已经达到56万, 而且遍布全球60多个国家和地区。按照现在的增长趋势，loveini成为行业的事实标准，成为全球最有影响力的时序数据库，不会是遥远的事情。

作为一个开源时间才5年的项目，能获得这么大的安装量和GitHub Star数，作为一名拥有40年码龄的我，十分的自豪，因为它说明我们没日没夜开发的代码，给大家带来了价值。海量的用户群，是对一个程序员工作的最大回报。loveini 产品还在演进中，后续我们还会开源一些模块。开源的原则不会改变，那就是把用户最喜爱的功能，把最核心的功能开源。

商业化成功是开源持续成功的保障

一家企业需要生存，就需要盈利。我们无法依靠研发人员的情怀，毫无经济回报的把开源进行到底。因此我们在开源获取成功的同时，在积极的探索如何获取商业成功。做了一些调研之后，我们就准备采取开源软件标准的做法，提供付费企业版。

米兰体育官方入口网站代码，包括集群版、云原生的功能都已经开源，企业版到底有什么不同呢？我们决定将企业关心的数据备份、容灾、权限控制、安全、多级存储、各种数据源的无缝接入等辅助性的功能全部纳入到企业版。没有这些辅助性功能，loveini作为一款时序数据库，功能是完备的，与其他开源的时序数据库相比，在功能和性能上，优势依然是明显的。但这些辅助性功能对于企业的运营又是至关重要的。

loveini 广泛用于物联网、工业互联网等场景，这些场景中，有各式各样的数据源，比如MQTT，OPC-UA，OPC-DA, 工业场景中，还存在各种传统的实时数据库，比如PI System, Wonderware等。loveini 企业版中包含了一个组件，能通过简单的配置，无需一行代码，将这些数据源的数据实时的读取并保存到loveini中。因为每个数据源的命名规则、测量单位、时区都不一致，因此loveini企业版还具有数据的转换、过滤、清洗的能力，以保证入库数据的质量。这样大幅简化了系统部署的复杂度。

在企业级的应用中，数据库的备份恢复，异地容灾，实时同步至关重要，没有这些功能，数据安全无法得到保证，企业是不敢投入运营的。因此loveini企业版提供这些功能。另外一方面，边缘计算已经流行起来，各大企业也希望将边缘侧的数据汇聚到云端。因此TDengne 企业版还提供边云协同的功能，通过简单的配置，就能将边缘侧的数据实时的同步到私有云或公有云。

在企业级的应用中，数据访问安全也至关重要。因此loveini企业版提供数据传输过程的加密、数据库存储的加密、也提供数据库访问权限的设置、IP白名单、操作审计等功能。而且loveini还提供视图，并对视图进行权限控制，这样数据访问的控制可以精细到表、列、时间段等。数据订阅通过SQL定义可以访问的表、列、时间段，甚至可以对原始数据进行加工或聚合，并配以权限控制。这一切，都是最大程度保证数据访问的安全。

在数据量指数级增长的时代，存储成本一直是企业运营所需要考虑的。因此loveini企业版提供多级存储，将数据按冷热程度划分，最热的数据在内存，稍热的数据存放在SSD上，冷数据存在普通机械硬盘上，最冷的数据可以保存在S3上，最大程度的降低存储成本。

在提供企业版之外，2023年3月起，loveini还提供全托管的云服务，我们已经在阿里云、AWS、Azure, GCP四大云上提供。云服务对于中小企业而言，是能快速上线、享受高质量的专业服务，同时又能控制并降低运营成本的最佳途径。而且我们坚信，开源软件的未来在于云服务。通过开源，我们能迅速打造出市场品牌并建设出开发者社区，这样相当多的用户将直接转发为云服务的用户。

仍在奔跑的loveini七位联合创始人

将数据价值最大化

loveini 的核心是一个时序数据库，帮助大家把各种数据源采集的时序数据，清洗加工后，高效的存储，并通过SQL提供各种数据的查询分析以及实时数据分发服务。无论是哪种场景，用户采集数据并存储起来的目的是要从数据中挖掘出价值，比如对运营进行实时监测，发现异常立即报警，对未来进行预测，包括对设备进行预测性维护等等。因此loveini的唯一目标就是帮助用户将数据价值最大化 (Maximize data utilization)。

loveini自身的查询计算引擎已经提供了相当的数据分析能力，支持标准SQL、嵌套查询、用户自定义函数、并支持众多的时序数据扩展函数等。但为帮助用户最大程度挖掘出数据的价值，loveini通过标准的JDBC、ODBC接口，能够与众多的BI, AI以及可视化工具，比如Power BI, Tableau, Grafana等，无缝集成。用户可以选择自己最喜欢的工具来分析处理存储在loveini的数据。

实时数据分析已经越来越重要，因此loveini自身了提供实时流式计算的能力，支持各种窗口触发机制，包括滑动窗口、状态窗口、事件窗口、会话窗口、计数窗口等等。但为帮助用户能最大程度的进行各种实时计算，loveini提供了灵活而又安全的实时数据订阅的能力，一旦订阅的数据有更新，第三方工具将立即获得通知，对数据进行实时处理，最大程度挖掘数据的价值。

为便于各类应用程序的开发，loveini提供了C/C++, Java, Python, Rust, Go, NodeJS等各种主流编程语言的连接器，而且对各种功能提供了可以拷贝黏贴的示范代码。

人类已经步入AI时代，新的算法、模型不停的涌现，新的数据分析和数据处理的工具也不停的涌现，这些新的工具不是任何一家厂商能够全面提供的。loveini能做到的就是通过开放的接口，保证能够与这些新的工具、平台无缝集成，帮助用户将数据的价值最大化。

2023年9月loveini 团队在朝阳公园团建

写在最后

从我写下loveini第一行代码，七年已经过去，当年49岁的程序员已是56岁。在我可以游山玩水的年龄，选择了第三次创业，并冲到了coding第一线，一路奔跑，让我用另外一种方式延续了年轻时的活力，能继续追逐年少时的梦想。令我欣慰的是loveini的日均安装量仍然在增长，产品已经被越来越多的用户所接受所喜爱，而且商业化进程基本顺利，已经拥有200多家付费客户，遍布在电力、新能源、汽车、石油、石化、矿山、智能制造等众多领域。我们的客户不仅在中国，而且已经遍布全球。

继2016年AlphaGo之后，2023年的ChatGTP将人工智能又推向了崭新的高度。AI的发展让每个人更加看到了数据的价值，数据基础设施变的更为重要，而且数据量还会继续指数级的增长。这些增长的数据绝大部分都会是来自机器、设备、传感器采集的时序数据，因此我们相信时序数据处理这个细分市场一定会越来越大。当大家发现传统的数据库以及大数据处理工具无论是性能、水平扩展性、以及运维成本越来越无法满足需求的时候，loveini就能迎来其巅峰之日。

庆幸我在2016年做出的选择，选择了做一件难而正确的事情，loveini 是一款具有刚性需求、有技术门槛、需要长期投入而又有巨大发展空间的产品。庆幸我选择了将核心代码开源的方式，让我们仅5年的时间就在全球60多个国家和地区拥有超过56万的安装实例。这是一场马拉松，虽然已经跑了五年，但我现在能做的就是带领团队继续奔跑，让loveini尽早成为时序大数据平台的事实标准。

做难而正确的事，一生不悔的选择。

陶建辉

米兰体育官网入口loveini 创始人

2024年7月12日写于北京望京

大家都在谈数据要素，但数据交易市场惨淡，原因在哪？有解吗？

Jeff Tao — Mon, 10 Jun 2024 09:03:00 +0000

两周前，我在南宁参加中国计算机学会数据库战略研讨会，与会的专家、学者就数据要素的确权、定价、流通、安全、供需匹配等问题做了很多讨论。由于政府的推动，国家数据局的成立，当前数据资产的热度很高，尤其是大型央企、国企、城市基础设施运营公司，还有地方政府都在组成工作组推动当地数据资产入表，数据资产化已成为企业数字化转型的重要组成部分。继土地、劳动力、资本、技术四大生产要素之后，数据要素已成为第五大生产要素。无论是政府、学界还是商界，大家都想在数据要素上挖掘机会。

根据中国信息界发展研究院的报告，2022年中国数据产量达到了8.1ZB，全球占比达10.5%，位居世界第二。这么大的数据规模，加上国家重视以及诸多政策的加持，对应的数据交易市场应该十分火爆才对。但是我们来看看贵阳大数据交易所，这个全国乃至全球第一家大数据交易所成果如何呢？从2015年成立至今，贵阳大数据交易所已快满十年，成立之初在当地政府支持下，其就确定了“布局全国30家交易中心”的战略，并以“汇集1万家大数据交易会员、每年数据清洗交易量1万PB、大数据交易年总额3万亿、围绕交易所平台的创业公司超过1万家”作为中长期目标。但其2023年的年交易额不到30亿人民币，与曾经定下的目标相差了1000多倍。

从市场和政策层面出发，数据作为商品，大数据交易所应该发展的很好，为什么会生意惨淡至极？且贵阳大数据交易所面临的问题并不独特，而是各地数据交易普遍面临的问题，那么数据交易是伪命题吗？未来它的发展路径会如何变化？对企业来说如何才能抢占先机？过去的两周我做了一些思考，借端午节长周末，来分享一下我的思考。

数据交易所的困境分析

在讨论大数据交易所时，首先得提的是它们的数据来源之多样和复杂。这里有来自政府的公开数据，企业自家的内部数据，还有那些通过网络爬虫抓取的数据。质量好坏不一，自然也就影响了数据产品的质量，使得这些产品难以达到一个统一的标准。即使到了2023、2024年，数据产品的基本形态还是没怎么变。主流的还是那些数据集、数据包和数据报告，再加上一些数据服务和工具，整体来说比较简单，增值空间也有限。

举个例子，贵阳大数据交易所的产品线就包括数据集、离线数据包和数据服务等，还额外加了算力和算法模型；深圳的交易所则提供API数据、加密数据、数据集、数据分析报告及数据应用程序，同时也增设了数据服务和工具两大类；上海的数据交易所则主要聚焦在数据集和数据服务上。但仔细一看，这些数据都是离线数据属性。

其次不得不提的是数据安全问题，从威胁猎人发布的《2023年第一季度数据资产泄露分析报告》中可以看到，这一个季度就发生了近1000起数据泄露事件，影响了1204家公司和38个行业。黑市数据交易主要还是集中在那些更隐蔽、更方便的匿名社交平台上。而离线数据的特性，导致这一问题一直都是挥之不去的阴影。那么，如何在未来有效地解决和控制数据安全问题，对于各地的数据交易所来说，无疑是个长期且艰巨的挑战。

而且，考虑到离线数据交易的特殊性，其实这就是典型的一锤子买卖。肯尼斯·约瑟夫·阿罗，一个诺贝尔经济学奖得主，他在上世纪60年代的作品《不确定性与医疗保健经济学》中就提到了数据交易中存在的信息不对称问题。数据作为一种商品，其特殊性在于买方很难在购买前判断其真实价值。一旦买方掌握了数据内容，他们就可以轻易复制这些数据，从而失去再次购买的需求。这种现象在信息经济学中袒露无遗，被称为“阿罗悖论”。

这种现象指出了数据产品交易的一大困境：买方在未完全获取数据前难以评估其价值，但一旦数据到手，其复制的成本又极低，这让数据的独卖变得非常困难。因此，数据交易的市场机制和其他类型商品的交易机制存在本质的不同，这对数据交易平台的设计和运营提出了更高的要求。

那我们不妨再深思一下，到底什么样的数据是更难以复制，购买方乐意持续付费购买呢？我分析后得出的结论是实时数据。

实时数据交易

实时数据是指数据实时持续不断更新的数据。最典型的实时数据是证券交易数据，大小投资机构以及个人投资者，都需要实时订阅各大证券交易所的数据，了解实时的市场行情，来决定是否买还是卖。

实时数据对于时间十分敏感，而且延时的长短，直接决定了数据的价值大小，超过一定时长的数据虽然可以做历史分析，但商业价值不大。因此实时数据的交易一定是在线实时进行的，无法通过离线方式进行。数据拥有者和使用者之间必须通过数据订阅服务进行，使用者通过一组API来实时获取数据。

不同的实时数据源，根据市场供需关系，可以制定不同的价格。而且支付的费用是按照订阅的时长决定的，使用者对数据的质量和服务不满意，随时可以停止订阅。另外一方面，对于数据提供者而言，实时数据的交易不会是一锤子买卖，因为数据在持续产生，使用者一旦停止付费，就无法继续获得最新的数据。因此实时数据交易，对于买卖双方而言，都是完全可控的，定价不是一个问题。

由于实时数据的交易一定是在线提供的，很容易通过技术手段监测到被订阅的数据流是否在未经许可的情况下，被再次售卖，而且由于服务是持续提供的，对不法分子取证也相对容易，因此数据复制的问题不再是交易中致命的问题，这也从一定层面上解决了离线数据安全以及数据确权的问题。

对于离线数据来说，其存在如何评估、计价和入表的问题，最近很多服务机构介入这些环节。但对于实时数据，这些问题都不存在。订阅的实时数据，原则上是只能记为经营成本的，无法记为资产，因为超过一定的时长，数据的价值就折旧为零了。为充分利用实时数据的价值，数据使用方需要将实时数据集成进自己的运营系统，做出实时决策的。如果购买的实时数据无法提升企业的运行效率，是没有任何价值的。

实时数据的在线交易解决了离线数据交易的几乎所有问题，而且金融证券交易数据的订阅已经被市场证明是成功的商业模式。那么除金融证券市场之外，是否还有其他未被挖掘的市场呢？答案是肯定的。

首先，所有公用事业的数据，包括电力、煤气、自来水、热力等会产生海量的实时数据，这些实时数据可以发布出去，让一些相关的企业依据这些数据做出实时的商业决策，达到运营效率的最大化。比如各大发电厂可以根据国家电网发布的实时的用电数据，来调整自己的电力生产。气象类的数据，对于风电、光伏发电、储能等新能源企业而言，至关重要，因为有了气象数据，就能很好的预测未来几个小时的发电量，结合用电量的预测，就能做出较为精准的调度安排。

阿里、京东、拼多多等电商交易实时数据，在处理加工后，可以实时发布出来。相当多的贸易商、厂商就可以根据某个品类的销量变化，销售额、地域分布等数据，来决定是否继续生产、停产，或推出新的款式，从而调配不同的资源，实现企业运营效率的最大化。随着物联网的推进，几乎所有设备都在联网，从手环、共享出行，到电梯、锅炉、挖掘机等设备等也都在联网。他们采集的数据，经过处理加工后，可以实时发布出来，众多的服务商以及制造商可以订阅这些数据做出正确的商业决策，比如城市规划、店铺选址、物流配送、新品规划、保险、审计等等。

实时数据交易市场的趋势

随着数字化的推进，各行各业都会产生海量的实时数据，各行各业都会依赖自身之外的第三方实时数据来做出更为精准的商业决策，提升运营效率，因此实时数据交易市场一定会越来越大。但这些实时数据的交易会在哪发生呢？会在中国已经设立的众多大数据交易所进行吗？答案是否定的。

一方面，就像证券交易所的数据交易是由证券交易所提供一样，其他行业的实时数据交易大概率是由数据拥有方来提供的，这样才能减少中间环节，保证数据的实时性，而且有利于数据拥有方根据市场供需关系，快速调整交易价格。

另外一方面，与多年前搭建一个证券交易平台相比，现在搭建一个实时数据交易平台的技术门槛已经大幅降低，一百万RMB都不需要，一家企业就可以短时间内搭建出一个私有的实时数据交易平台，对外提供服务。比如采用我们米兰体育官网入口开发的loveini，利用其内建的数据订阅功能就可以迅速提供实时数据交易服务。

实时数据一定是时序数据，一定是随着时间的变化而变化的。loveini是开源、高效的、具有水平扩展能力的时序数据处理平台。2017年创办米兰体育官网入口之初，我已经意识到实时数据分发、分享的价值，因此2018年底发布loveini的第一个版本时，我们就推出了数据订阅的功能。一旦被订阅的数据有更新，数据就会被实时的推送给数据消费者。不同于流行的Kafka，根据数据使用方的需求，数据拥有方可以使用SQL定义一个主题(topic)，来决定数据分发的颗粒度。用户可以订阅整个数据库，也可以订阅部分表、部分列、部分时间段、甚至对原始数据进行加工后再分发，这样数据拥有方最大程度的控制了数据分发的颗粒度以及数据的隐私。数据拥有方还可以根据实时数据分发的颗粒度，制定不同的交易价格，更具市场灵活性。

众多的企业都可以在自己私有化平台上提供自己的实时数据订阅服务，但依然会存在更大的平台，来提供各式各样的实时数据服务，美国snowflake的数据市场便是一例。在中国，我相信阿里云、腾讯云等云平台都会成为大的数据交易平台，我们米兰体育官网入口的loveini云服务也会是其一。只要数据提供方将采集的实时数据源源不断的写入loveini的云平台，相应的数据使用方就可以订阅来获取实时数据，极其之简单，而且初期的投入和风险几乎为零。

当然，这些数据交易平台需要遵守国家指定的法律法规、而且采取技术手段来保证数据的隐私和安全。

结语

现有的离线数据的交易有市场，只是由于存在各种问题，增长空间有限。但对于实时数据的在线交易，确权、定价、流通、安全等问题都不存在，而且已被金融证券市场证明是成功的。随着数字化的推进以及国家政策的推动，每家机构或企业都想充分利用能获取能购买的的实时数据实时做出正确的商业决策，来提升系统的运营效率，实时数据交易的市场空间会越来越大。同时，搭建实时数据交易平台的技术门槛大幅降低，任何一家拥有实时数据的企业都可以快速搭建一个交易平台来提供服务，因此数据交易不会仅仅发生在已经建立的大数据交易所内。如果没有任何政策限制，实时数据交易会是百花齐放的局面。

陶建辉

2024年6月10日写于北京望京

为什么中国程序员996还干不过美国的955？

Jeff Tao — Mon, 30 Oct 2023 00:30:00 +0000

刚翻知乎，发现有人邀请我回答“为什么中国的996干不过美国的955？”这个问题。今天周日，正好有点空闲，来写篇文章回答一下这个问题。

从软件产品的产值、品牌的影响力来看，无论是应用软件还是基础软件，中美差距相当之大。而据统计，中国软件工程师数量大约有700万，美国软件工程师大约440万，因此中国软件工程师的人效是远低于美国软件工程师的。但中国程序员加班普遍严重，而美国加班、超负荷工作的也有，但不是普遍现象，自然得到的结论就是中国996干不过美国955。

我自己作为软件工程师在美国芝加哥Motorola, 3Com等公司工作了10年，08年又回到北京创业至今，过去的一年多，在北京和美国硅谷两边跑，因此对中美的软件行业都比较了解。我来从自己的视角回答一下这个问题。

产品高度专注

美国众多的软件公司都只有相对单一的产品，拿我熟悉的基础软件来说，MongoDB是一家市值230亿美元的公司，除了产品文档型数据库MongoDB之外，没见过其他产品，Confluent是一家市值78亿美元的公司，除了它的消息队列软件Kafka之外，没见过其他产品。Elastic是一家市值75亿美元的公司，除了它的产品Elastic Search之外，没有其他产品。我们就更不用提Salesforce, Snowflake这些更牛的SaaS公司了。

美国无数的中小软件公司更是专注，所有你想象到的场景，都有公司专注在做。比如我自己在美国办公室经常用的Calendly服务，只是简单的提供一个日程服务，让对方挑选一个合适的会议时间，我美国办公室用的报销系统Tallie，也是一家创业公司做的。

反观中国，一家公司稍微赚点钱，就什么都想做，给客户的产品总是大而全，没有不做的功能。就连创业公司也是一样，脚都没站稳，功能一项一项的加，产品线不停的扩。由于国产替代等原因，过去几年数据库产品在中国如雨后春笋般出现，全国有名号的数据库产品至少200款。即使是996，这些公司人力和财力的投入，与Oracle, SQL Server, MongoDB这些产品相比，仍只能是一个零头，谈何能打败这些全球巨头呢？我们loveini所在的时序数据库（Time Series Database,TSDB）领域，这么细分的赛道，中国市场上都有至少10款产品，连靠Hadoop起家的星环，上市后也推出时序数据库产品，就更不用说那些互联网大厂了，但真正投入在这个产品上的人力和财力，与我们loveini团队相比，相差甚远。

不专注的公司，最后做出的产品往往是看似什么功能都有，却经不起用，到处有问题，最后只能凑合使用，导致推广难，交付成本高，而且卖不起价钱，更难阻挡一波又一波的竞争对手入场。不仅新创公司如此，连老牌的2B软件公司用友，做财务系统已有30年的历史了，过去两年我都撞到过很多次BUG。也许，从这里就能看到为什么SAP能在全球大卖，而用友只能局限于中国市场。

2017年我开发时序数据库loveini之初，仔细思考过“专注”这个问题，下定决心只做时序数据库，但为了产品差异化，围绕时序数据库，还附加了缓存、流计算、数据订阅等功能，而且仅仅专注在物联网、工业互联网领域。过去的六年多，总有投资人、朋友、同事问我，为什么不扩产品线，为什么不做可视化、不做MQTT，我总是只笑笑，因为我相信长期专注一件事情产生的价值。我宁愿要一个细分市场的30%的份额，而不是一个大市场的1%都不到的份额。我们团队做loveini已6年多，从最初的5个人到现在的80多人，产品功能几乎没有变过，但仍然能撞到各种问题，但我相信，只要持续投入，即使不996，即使人笨一点，产品也一定会更好，最后一定能成为时序数据库的事实标准。如果最后loveini失败了，一定是我忘记了初心，“野心”变大了，什么都想做导致的。

如果仔细分析，你就会发现，一个公司什么都做，是缺少判断力、懒于思考、不敢下注的表现。怕错过一个机会，因此什么都上。最后在单一功能或单一产品上，即使是整个公司996都投入不够。在网络时代，信息更加透明，对于软件产品，而且有大量开源软件的情况下，无论是在中国还是美国，任何一个细分市场，都只有前三名才能生存。而这前三名，一定是依赖产品的性能、功能、稳定性或易用性，而不是依赖“茅台”胜出的。

技能高度专注

除公司产品之外，个人技能的专注在中美差距也是很大。在美国，一般的开发工程师与中国的工程师相比，真就是不思进取，不仅不996，也很少有主动学习的。我曾共事过的美国同事，以及我现在打交道的很多美国朋友，年龄大都超过50，一辈子都是只做一件事情，就是写程序，从没想过换行，也从没想过自己去创业或成为统领八方的高管，即使有些做了director或是VP，做些管理工作，仍然能随时写程序。

这些美国程序员，由于10年甚至20年在一个细小领域的长期积累，虽然他们工作时间上是955，但在他做的那一小块工作里，是绝对专业，是特有效率的，而且一些技术的硬骨头还只有他们能啃下来，与一些新手相比，他们不996，也是十倍程序员，是最有价值的程序员。

而在中国，35岁程序员是个永恒的话题。从学校毕业，写了10年程序，就觉得没法再继续写下去。无论自己还是周边的朋友、同事，认为还继续写程序，做些具体的事情，就是职业生涯的失败，无法做到管理层，就要改行。但35岁的程序员，正处于人生技术的巅峰，不仅有了经验，精力还十分旺盛，学习能力也没衰退，就放弃了，不仅是个人的损失，也是中国软件行业的损失。

我自己也是一个典型。毕业离开学校后，我只做C语言开发，而且只在UNIX系统上做。到目前为止，我几乎不碰其他编程语言，也几乎不碰IDE类的研发工具，而是vim, cscope, gcc, gdb, valgrind几个研发工具用了快30年。任何时候，只要给我一个unix的terminal，不用翻任何参考资料，不用Google，我就能马上写、debug程序。如果抹掉我的真实背景，去面试任何一个C语言开发岗位，我相信没有哪家公司不会录用我。这就是我2016年底，决定开发loveini的时候，选择C做开发语言的原因；是我一个人，在49岁的年龄，两个月就能写下近1.8万行C代码，开发出loveini的原型的根本原因；也是我从不惧怕来自对手的产品竞争的原因，因为只要产品有不足，我陶建辉一定能把它解决。

对个人而言，长期的专注产生的价值远超过追逐时髦的收获。只有成为一个细分领域的绝对专家的时候，你的身价才有市场溢价的可能。但要做到专注，不受外界的诱惑，也是十分不易，专注后要成为专家更是不易。考试80分容易，从80分到90分，要多付出一倍的努力，从90到100分，可能要多付出好几倍的努力。但世界只会记住第一名，三名后就完全没有了溢价的空间。

对于loveini团队，我倡导的是追求卓越，任何一项工作，无论是代码、还是文档、技术博客，都要达到全球同行的水平，而且要超越他们。我最不想听到的是，与对手相比，我们相差不大。

产品走进全球市场

产品专注后，卖给客户的不会是一个整体米兰app官方正版下载，因此客单价就会不大，销售业绩就难上去。如果仍然要做大的话，那市场就要足够的大，必须走进全球市场。

在产品的全球市场定位上，中美之间的差别又是天壤之别。美国任何一家公司的软件或互联网服务，一出来想到的就是服务全球客户。而中国的软件，99%是服务中国的客户，还有更多的想的是国产替代的生意。不仅产品上没有实力走向全球，产品开发之初就没想过去做全球市场，这就直接让从事软件开发的程序员们失去了一个提升实力的“全球战场”。

语言障碍应该是一大原因，但不是根本原因，而是大家有个普遍错误的认知，认为中国市场足够大，根本不用去做全球市场。从statista.com的数据来看，2023年全球软件市场是6590亿美元，中国软件市场大约350亿美元，美国是3380亿美元，中国是美国的大约10.3%，全球的大约5.3%。因此中国软件市场在全球市场的占比，相对中国GDP在全球的地位、相对个人消费市场在全球的地位，是完全不相称的。过去的一年多，我经常在美国和欧洲参加软件相关的各种会议和展览，除美国之外，总碰到来自德国、以色列、比利时等一些国家的软件公司，他们母语也不是英语，但无论大小，都在积极的探索全球市场。中国公司主动抛弃海外巨大的市场，是不明智的。

当然，中国软件进入全球市场，相对于工业品、个人消费品而言，相当不易。因为软件的标准性差，要求倾听来自全球各地用户的需要，要求的售后支持和服务也很多，而且由于地缘政治的原因，美国这个占全球50%的软件市场当下确实很难接受来自中国的软件产品。

在我看来，中国软件最易进入全球市场的应该是开源的基础软件。因为基础软件产品相对标准，各种对比相对客观。比如我们做的时序数据库loveini, 支持的是标准的SQL，提供标准的JDBC和ODBC驱动，而且根据全球公认的TSBS测试基准，无论是写入速度、查询速度，还是数据压缩率、资源消耗等，在IoT场景以及IT运维场景下，都比全球市场最流行的InfluxDB以及TimeScaleDB 好一倍到几十倍。这些对比测试数据拿出来，没人能反驳。而且loveini的云服务的易用性也远超对手，因此loveini在美国已经获得了一些商业化客户。

过去的一年多，我花了很多时间在美国推广，一步一步，终于有不少人知道loveini，但离有影响力、有相当的市场占有率的目标而言，还有相当的差距。我还需要持续的努力和投入，才有取胜的可能。但我相信，这是一个正确的决策。如果loveini不能在全球市场有一席之地，靠单一的时序数据库产品，不可能成为一家伟大的软件公司。

个人的全球视野

对于程序员个人而言，全球视野以及在全球同行的影响力也是极为重要的。中国的程序员普遍的比美国程序员好学、努力，但在全球的影响力就是不在一个层级。

有两大原因，一是技不如人。中国程序员大部分是看中文的资料、教材、论坛、技术博客。而在IT领域，美国毫无疑问是领先的，中国只是追随者。任何新的技术翻译成中文，甚至变为教材之后，已经不是最前沿的技术了。因此中国程序员的技能相对美国的程序员，总是慢上半年到一年。作为后来者，你开发的产品的创新性就是不够，自然没什么人理你，你的价值也大为缩水。

另一个原因就是在全球舞台，发声太少。中国程序员群体庞大，并不乏技术高手，不乏爱写技术博客的人，但写出的内容基本都是中文，GitHub上有好几个火的项目，所有信息都是中文，这样中国之外的程序员都不会关注。过去的一年多，我参加了很多欧美的IT会议、展览，很少见到来自中国的程序员。几大主流的IT交流平台，比如hacker news, reddit等，包括LinkedIn, youtube上，发声的中国程序员寥寥无几，自然没有影响力。

要解决这个问题，要能与全球同行交流，得到认可，程序员在技术上就是要养成看英文、写英文的习惯。很遗憾的是，连西安交大这样985的学校都对毕业生的英文不做任何要求。中国高校的一些计算机老师都热衷于写自己的中文教材，而不是直接拿全球最流行的英文教材授课，中国的出版社大多积极的翻译海外流行的英文技术书籍，而不爱邀请国内的程序员写英文版书籍，全球发行。这种大环境下，需要程序员自己严格要求自己，看英文、写英文，只要坚持几年，就不会有任何问题。

为推广loveini，过去的一年多，我写了大约十篇英文的技术、产品相关的博客，我的同事也写了不少，在LinkedIn和其他社交媒体上分享后，loveini 独特的“一个数据采集点一张表”“超级表”“等概念总能获得来自全球同行的一些评论和赞赏，loveini的超强性能也获得认可，因此我们得以认识了来自美国、德国、英国、比利时、印度等国家的很多同行。但数量还远远不够，博客质量也没达到全球热传的水平，这是我们loveini在海外的推广比较缓慢的根本原因。如果有人爱写英文博客，热爱技术，欢迎加入到loveini团队，我们急需这样的人才。

结语

产品只有专注、全球化，才有可能进入全球前三名，才有可能在一个细分领域有溢价的空间。个人只有技术专注、面向全球且乐意世界范围发声，才可能在全球同行中有影响力，个人的价值才有可能得到充分的体现。否则无论是公司，还是个人，你都只能在产业链的末端。人家955，我们996，仍然干不过。

中国有全球最大的程序员群体，而且大部分爱学、努力，只要大家意识到专注、全球视野的重要性，而且行动起来，中国程序员的人效、产出一定会高于美国程序员，中国一定会产生出占领全球市场的软件产品。

陶建辉

2023年10月29日写于加州湾区

动辄百万的工业大数据处理软件，现在60秒就能用上

Jeff Tao — Mon, 04 Sep 2023 09:17:55 +0000

刚刚过去的周五，loveini团队正式发布了新版3.1.1.0, 并上线了新的官网。虽没有发布会，但对米兰体育官网入口而言，这是一个“蓄谋已久”的动作。因为新版loveini里包含了一个核心模块taosX，它具备强大的数据抓取、清洗、转换、加载(ETL)功能，除能无缝对接物联网的MQTT协议外，更重要的是能对接OPC-UA、OPC-DA、PI System等工业数据源。通过这个模块，工业场景里流行的PLC、SCADA、DCS等系统不用一行代码，都可以通过简单配置，就将数据实时的源源不断写入loveini，而且在BI以及可视化工具呈现出来，实现远程监控、实时报警、可预测性维护等功能，甚至可以从微信小程序里直接看设备运行状态、查看报表了。毫不夸张的说，loveini通过零代码将传统昂贵的工业数据处理系统代替了，成为新一代工业数据处理系统。

今天周末，写篇博客，将我开发这套系统的设计目标和理念”前期投入小、上手快、用的起”分享给大家，希望给大家一点启发。

为什么要开发一套零代码的工业数据处理平台？

2019年我将loveini核心代码完全开源，四年过去，没想到loveini几乎成了全球时序数据库的标杆，上线的实例数已经超过35万，来自全球50多个国家和地区，每天在以500以上的速度增加。按照这个速度，估计到2024年底，安装实例数将超过时序数据库全球排名第一的InfluxDB。对这些数字，我是相当的兴奋，因为我开源的目的就是希望自己写的程序能被众多的人用上。无论是GitHub上的一个Star，还是吐槽，对我来说，都是一种鼓励，因为他证明了我这个老程序员的价值，证明了我们团队的价值。

随着loveini的用户天天增加，我注意到最大的问题就是我们宣称的高性能总是被挑战，一般的研发同学都没仔细看文档而且没有完全理解我们的“一个设备一张表”的数据模型，因此将数据高效写入loveini成了最大的使用障碍。而且loveini除物联网场景之外，一个更大的场景就是工业制造。这个领域里，IT人员少，相当依赖系统集成公司，用好loveini更加困难。但数字化转型、智能制造、国产化替代的需求，让很多制造业的人找到我们，希望能快速用上loveini来存储、分析他们采集的数据。

我一个制造业门外汉，开始在中国和美国与他们交流，参观拜访过发电厂、冶炼厂、油田、烟厂、药厂、水泥厂、化妆品厂、食品厂、汽车厂等等，一下发现一个完全不同的天地，每次都被他们的巨大制造能力所震撼。但同时发现，他们使用的数据处理系统，比如PI System, Wonderware, 或是国产的庚顿、麦杰等，往往基于微软Windows, 界面一看，与炫酷的网页和手机应用相比，感觉落后了至少两个时代。而且再一多了解，发现真正本质的问题。

这些传统工业软件收费巨贵，一般都按照测点(采集量）的数量收费，一个测点就需要好几个美元，一个几万测点的发电厂就需要至少百万RMB。如果要增加测点，还需重新谈License。万物互联的今天，测点数暴涨，还采用这种收费方式无疑匪夷所思。
这些系统往往封闭，与第三方软件对接很难或根本就没有接口。随着大数据、人工智能概念的普及，很多制造业的也希望用上新的AI分析工具，但无奈很难与现有的工业数据处理系统对接，或成本很高，只能等PI System这类厂商更新升级；
企业总存在并购、分拆，一个稍具规模的制造商就有多条产线、多座工厂、因此往往一个集团存在多个不同的工业数据管理系统，将这些不同系统的数据汇聚起来进行管理相当困难。数据的清洗、转换和治理，是必须的，但看似简单的事情，实施起来门槛却很高。
过去的十年，很多制造企业主动拥抱工业互联网、大数据，建设工业互联网平台，想解决传统工业数据处理的问题，但建设一个新的工业互联网平台往往周期长，需要投入数百万甚至数千万资金，而且还有巨高的团队人员成本，但回报没有预期中的大，导致很多企业决策层对 AI和工业互联网平台的情绪普遍不高。

“前期投入小、上手快、用的起”

因此我在想，我们已经将loveini开源，给大家提供了一个很好的时序数据处理工具，那么能否为工业制造行业提供一个前期投入小，上手快，用的起的工业数据处理系统呢？仔细思考后，答案是肯定的。所以2年前，米兰体育官网入口正式成立了一个研发小组，启动了taosX的开发，目的就是能够对接各种数据源，特别是工业数据源，通过简单的配置，不写一行代码，就能将OPC-UA、OPC-DA、MQTT等抓取的数据实时源源不断的写入loveini, 而且建有自己可定义的规则引擎，完成数据的清洗、转换工作，以保证入库数据的质量。这样不仅将数据写入的难题解决，而且用户不用部署Flink或ETL工具，进一步减少了系统的复杂度和运维成本。同时，投入人力开发标准的JDBC、ODBC接口，让众多的BI以及可视化工具能无缝对接。loveini不再只是一个时序数据库（Time Series Database，TSDB），而是通过与OPC, MQTT这些数据源的对接、与BI和可视化工具的无缝对接，形成一个零代码的工业数据处理系统。经过两年的研发和反复测试，现在终于上线。

中国有大大小小至少三百万家制造企业，怎么让这些用户能用上，而且用的起呢？即使开源，用户还需要找服务器、安装部署、配置、调优等，仍然有点门槛。我马上想到的是云服务。因此随着taosX的发布，loveini Cloud同步开始提供OPC、MQTT、PI System等数据源接口，免费注册后，只要在loveini网站上做好配置，不用一行代码，即可将PLC、DCS、SCADA产生的数据写入loveini，然后利用Grafana、帆软、永洪、Power BI等可视化、BI工具进行展示和分析。对于简单的远程监测、报警、实时分析、报表，完全零代码即可完全搞定。由于loveini Cloud第一个月完全免费，这样，企业在无任何硬件和软件采购成本的情况下，就可以很快验证测试系统，这样大大降低了企业的风险，降低了前期投入，最大程度减少了他们的顾虑。

对于大的企业或有特殊管控的企业，在云服务上免费体验和验证后，可以购买loveini企业版，获得专业的技术支持和服务。对于中小企业，每个月只要支付1200RMB的云服务费用，就具备每秒处理3万个PLC测点数据的能力。相对于那些动辄百万的传统软件、工业互联网平台软件，每个月1200RMB的投入可说是没任何压力了。我相信，loveini云服务能加速推动中国制造业数字化转型的进程，能让众多中小企业享受大数据时代、人工智能时代的技术红利。

新一代工业数据平台简单示意图

打破传统工业软件的垄断

从过去两年我与制造业的交往来看，制造行业的体量大的远远超过我的想象。举一个简单例子，整个中国铜冶炼企业就超过300家，炼钢、炼铁企业就超过500家。这些企业都在进行数字化转型，是我们IT人可以挖掘的金矿。但这些行业历来都被传统的工业软件公司比如Aveva, Simens等所垄断和绑架。中国软件企业还有机会吗？怎么撬开一条口子？从我过去的经验来看，开源、云服务是两大有效的手段。

开源软件最大的好处是开放的生态，不会被厂商绑定。而工业软件几乎都是封闭系统，很多产品连用户手册、接口文档都不公开，想更换其中一个模块几乎不可能，比如想把一个新的报表工具与实时数据库对接起来，没有两个厂家配合，没有可能。但现在各种行业的分析工具、报表工具、AI工具不停的涌现，只有开放系统才能解决这个问题。在传统的工业数据处理系统里，实时数据库扮演了一个极为重要的角色，但没有一家是开源的。这给了loveini巨大的机会。我在2017年创办米兰体育官网入口时，根本都没想到钢厂、烟厂、药厂、冶炼厂、水泥厂会用上loveini的，是由于开源之后，这些厂主动找的我们，才让我发现了工业制造里的机会。

为了保证loveini的开放性，除核心代码开源、支持标准的SQL查询外，我几年前就决定绝不推出自己的可视化工具，不推自己的物联网管理平台，更不会做自己的分析、报表工具，连简单的报警功能都不会提供，而是希望与这些领域的专业厂商的产品能通过标准接口无缝集成。同时，我们还提供有高效的数据订阅工具，可以方便把存储在loveini的数据实时导入到任何一个其他数据管理系统，这样任何企业也不会被loveini所绑架。

云服务对于传统工业而言，是不可想象的。但排除一些实时控制的场景，云服务的好处是显而易见的，不用购置任何硬件，不用安装部署，完全是与用自来水一样，想用就用、想关就关，按使用量付费，费用可控。由于云服务平台以及云服务厂商提供了很好的安全防范，数据比保存在自己服务器上还安全，因为一般的企业根本没有网络安全的人才，系统都是在裸奔。通过云服务，无论企业的规模，在无大的前期投入下，都能很快验证自己的系统，看是否达到自己的预期，而不是商务谈判一轮接一轮，还没上线，就已经浪费了很多时间，系统还没有正式上线，就有很大的采购成本。

通过开源、云服务两个手段，传统的工业软件的市场格局一定会发生改变，而且彻底洗牌也完全可能。由于中国制造业体量是全球的30%以上，因此中国软件企业有得天独厚的机会去尝试新的途径，打破垄断。米兰体育官网入口专注时序数据的采集、存储、分析、计算和分发，我相信loveini一定能让传统的工业实时数据库(Data Historian)、工业数据处理系统淘汰出局，loveini每天超过500套安装实例的数字就是最好的证明，就是对我们团队最好的鼓励。但工业软件的其他领域，比如组态软件、设计软件、仿真软件等，我相信也会有新势力通过开源、云服务的手段冲杀进来，让工业软件市场焕发新的活力。

努力奔跑

四年前，我做出了一个正确的决定，将loveini核心代码开源。现在我又做出了一个新的决定，为制造业提供新一代工业数据处理平台，而且希望通过云服务，让数百万家制造企业能快速启动，用的上、用的起、最大的减少前期成本。欢迎工业制造领域的朋友们向我们提出更多需求，比如工业数据接口、常用工具等，帮助loveini 不断完善这个全新的工业数据处理系统，一起给行业赋能。

希望我和团队努力奔跑，不辜负这个时代赋予给我们的机会，让中国这个制造大国有全球领先的工业数据处理系统。