填问卷&赢大奖 网转:一个投资顾问兼研发老兵(RAID调度算法博士)的存储手记 - FreeStor® Powered by FalconStor

Request and Attend a Demo to Receive a Star Wars Lego Set.

This offer is subject to availability, the Lego set you receive may change without notice.

网转:一个投资顾问兼研发老兵(RAID调度算法博士)的存储手记

【编者按】

认识Linda(刘畅)是在7月2日的SDS技术沙龙及SDS新书发布会上。想了解技术沙龙详情的朋友,可打开如下链接:

圆满结束(2016年SDS技术沙龙) & 演讲稿分享

在这特别感谢OnApp的Tony文军的引荐。当我知道Linda的职业经历后,觉得非常传奇,从IP存储的研发,到EMC高端存储的技术支持,再到投资顾问,每一步都是具有挑战的跨越。下面是Linda的自我介绍。

Linda,Cirrus Data的创始人之一,本科毕业于清华大学精密仪器系,于2005年获新泽西理工计算机博士学位,研究存储阵列调度算法。曾在Falconstor(飞康)担任核心代码组的开发工程师、以及IPStor的高级技术支持,EMC上海研发中心Symmetrix的技术支持。目前拥有4项存储技术的发明专利。

下面这篇文章有Linda的描述,也有Linda的翻译。翻译部分,原文出自Wai Lam(林伟东,飞康创始人)。

---Begin---

在跟云计算圈朋友的密切交流中,我重新将目光和学习劲头投向存储工业界。之所以称之为“工业界”,是有意将其与时髦的商业概念和尖端的学术领域加以区别。

我是名老飞康(Falconstor)-- 圈内人可以理解为何我们会加一个“老”字。飞康给了我离开校园的第一份工作,在那里我进入了IPStor最核心的IOCore研发团队,做过给H3C项目的存储服务器产品测试,也做过整个IPStor的高级技术支持。飞康给予我的机会和技术积累是我受用一生的财富(当然,过程也相当痛苦)。

而近一年来在同投资圈的接触中,我学会从不一样的角度尽量客观的看待技术和团队,发掘本质,不去同任何存在的现象去对立。

在此希望通过自己在不同领域学习路径上的心得体会,不断梳理对存储工业体系的认知。加以分享以不断鞭策自己对技术的敏感度;倘若还能对投资方以及正求贤、求资若渴的企业产生一些参考价值,将是大大的bonus(奖励)了。

在新术语、新架构、新产品层出不穷的今天,我首先借用几篇存储前辈的文章,回顾历史,和大家分享一下自己是如何看待当前的存储格局的。下面的这篇文章摘自技术博客专栏,(http://www.cdsi.us.com/software-defined-storage/),作者:Wai Lam于2015年6月16日,Linda译。

Software Defined Storage – What Is It?

软件定义存储–到底是什么?

在这个年头,不时的会冒出一些时髦的词语,让每个人(尤其是专家)振奋不已的谈论。每当这种时候,我总会有种感觉仿佛自己是那个看皇帝新衣的小男孩,观望着一幕令人难堪的场景。

今天的深奥词语是“软件定义存储”,SDS。它究竟是什么?

和其他人一样,我先查维基百科。大致上,“SDS是‘计算机数据存储软件’的一个进化的概念(Linda:请留意进化这个词,因为这意味着之前以及以后,这些软件都将以一个自生存的有机体存在),实现:1,基于策略的资源管理,2,独立于硬件的数据存储管理。…通常会包括某种存储虚拟化的形式,将管理存储基础设施的软件从存储硬件中分离出来……”等等。

呃,听起来真熟悉,让我不由得回想起一些不那么遥远的过去。

曾经,有那么一位高瞻远瞩的智者叫Reijane Huai(Linda:我们会称他Reijane或者Rei)。当他预见到新兴的千兆以太网(Gigabit Ethernet- GbE)很有可能超越当时的光纤SAN的时候,便召集了一队工程师创建SCSI over IP的产品。希望使用新的GbE提供一个可路由、更普遍、更经济的存储连接方式打破光纤的垄断。

那时候是2000年。当这个构想被台湾的陈教授带领学生在Linux环境测试成功后,FalconStor(飞康)公司成立了。我们的纽约团队立即尝试在Windows系统搭建原型(由于不像在Linux底下有源代码,所以难得多)。我用一些样本代码来确认NDIS(网络驱动接口标准)驱动程序能访问网络堆栈。之后,我的同事、软件专家Ron Niles和Jimmy Wu(Linda:FalconStor的两位顶级工程师、架构师)迅速的用代码创建了世界上第一个在Windows运行的SCSIover IP的驱动程序;这一切通过在Windows环境中,播放一个从Linux服务器上连接的CD光驱中的电影,映射到Windows的一个IP虚拟本地盘来展示。为了获取更高速度,那个几乎能在“原子层”编写代码的工程师Ron(Linda:巨大工程的IPStor源码,很多篇程序都以Ron Niles的名字开始),在Kernel实现了网络缓存和内核SCSI接口间高效的零内存拷贝,在我们的SAN over IP传输获得120MBps的吞吐量。这个速度比当时光纤通道的80MBps高出50%。我们以为有了可以引导公司走向成功的产品。

然而,世事难料。不幸,2000年的互联网股市大灾难摧毁了不少有潜力的新技术。我们意识到公司不能仅仅依靠SCS Iover IP;于是开始构建一个完整的存储平台,添加新型的存储功能,如差异数据的Delta快照和基于IP的微扫描复制(micro Scan IP replication)。就这样,我们无意中了开拓一个全新的前沿领域。例如,那时候EMC的快照BVC,是一个全卷(volume)镜像,然后被一个个断开来作为保存数据的image;因此,每个快照都是一个完整的卷。而我们的解决方案是块级差分,这意味着只保存变化的数据。IBM的存储专家在看到我们的技术后,给我们的快照冠以“高效能快照”之名。我们为设计这些先进功能发明了许多技术,因而拿到很多专利。其中相当部分的精妙创意和设计也来自Wayne Lam(Linda:另一个有远见的IT天才,在大学期间就开了公司,并展示出不同于同龄人的领导风范),也是Cirrus Data现在的CEO。他出色的交流带回了宝贵的客户需求,也是当年飞康大部分单子的落单人。

这些,最后形成了IPStor,世界上第一个带着最先进存储功能的存储虚拟化产品—即使按今天的标准也能如此评定。这是一个纯粹的软件:异构存储在同一个环境中被虚拟化并受控于一个中央平台。可以创建存储池,分配机制既可以用创建策略的方式,也可以从客户端主机上自定义。

等等,刚才维基百科是怎么解析SDS来着?

我猜人们或许遗忘,也或许对这么一个事实不知:15年前,所有存储系统除了RAID控制器之外是没有其他功能的(Linda:哈,难怪当时我去FalconStor面试的时候,CTO惊讶的对我说:竟然有存储专业的博士!我很尴尬,但我读的的确就是RAID系统的调度算法)。然后,等我们创建了一个“存储被虚拟化,从而使软件从硬件中独立出来,并行使着管理基于策略的配置和数据管理的功能……”(从维基百科)的产品之后,很快,许多硬件存储公司也开始添加类似功能;当然,每个公司都以自有方式实现,不久便形成了一个大集市。“虚拟化”这个词先被认为“好”,然后“坏”,然后又“好”,然后又“坏”。我想,现在是又一次的“好”J。因为显然有人闯进今天的存储乱世并想出了“绝妙”的主意:“我们为什么不创建一个虚拟化存储软件平台去集中管理所有的硬件?让我们称之为……嗯……软件定义存储,因为已经有软件定义网络了……”

也许老有老的好处。事实上,曾一度亲身站在虚拟存储拓荒战场中心有助于一个人认识到事物的实际真相,包括其中的对与错、利与弊。事实上,当今几乎所有一切都是软件定义,存储也不例外,目前的IT环境就是如此。所以也许我们更应该把它称为“软件定义的时代”,因为连服务器都是软件。

未来的存储平台的设计构建不能仅针对经典的SAN volume或NAS share,而应该把融入更灵活的云基础架构考虑进去。这意味着完整的存储模式应该囊括虚拟化、分布式计算,以及无处不在、高容量互联网连接的数据环境。独立和孤岛分布的存储单元即将成为过去。

那么什么是SDS呢?我只能从上述的历史,和亲身一路走过来的个人经验来说几句。多年的经验使我对时髦的词语炒作持极度怀疑的态度。如果参考SDN的例子(Linda:Wai Lam是个不折不扣的网络专家),我们可以说SDS,是一种允许用户以更加灵活的形式来指定或要求具有特定功能和特性的存储设备的机制。这就要求存储系统提供相应的API,以及能满足这样要求的功能,如:自动精简配置、快照、去冗余等。这些功能已在业内以各种形式实现并发展成熟,包括我曾提到的基于性能去自适应分配存储池的例子。虚拟机计算环境进一步推动了许多存储供应商加入相应适配。但人们却往往在谈论SDS时不先将这些实际情况搞清楚。

近年来,在更便宜、更快的存储、更高的连接速度出现的时刻,在各种高科技元素汇合下,数量惊人的新应用层出不穷;尤其是多媒体数据,已引来了一个对存储需求的狂潮。这也带来了非常精妙、特殊的解决方案,以满足新一波存储浪潮的挑战。但是,伴随每一波新型架构,相应的,总会出现那么一波声称是应对大潮的万能药的宣传。

自信息时代演进的短短几十年历史中,这种现象已出现多次。我们生活在一个真正有趣、令人无比兴奋的时期。然而,面对着概念和理论,我们Cirrus Data团队时刻提醒自己专注于真正重要的目标:即为我们的客户提供切实、精准的解决方案,并为市场提供实际可用的技术和产品。

最终,不管它是叫“SDS”还是其它“万能药”,信息还是那些无数的0和1,仍将需要实实在在落在物理介质上,并需要被管理、保护以及随时取用。

原文作者介绍:

Wai Lam(林伟东),Cirrus Data的创始人之一、CTO和副总裁。之前,他是FalconStor(飞康软件,NSDQ:FALC)的创始人之一、CTO和工程VP。在飞康,他是总架构师,拥有21项技术发明专利中的18项。他的发明和创意包括工业界首批存储虚拟化、数据保护以及灾难恢复。到现在为止,他的发明专利总数增长到23个。Wai Lam在2013年荣获中国千人计划专家称号。

20160727.webp.jpg

【编者按】

从本篇文章开始,将陆续但不定期的连载Linda的存储手记,她会描述自己感受到的在项目型公司和产品型公司的体验。我觉得这个系列至少对于存储研发,想募集资金的存储初创公司,以及想在存储行业投资的人有所帮助。Linda撰写这个系列文章的初衷是:

"项目型公司希望从项目中抽象产品,实际上是要在思路上有根本的调整的。很简单的举例:项目往往会由客户需求的技术指标驱动,而产品 需要由某一个/类应用主题和场景驱动,然后构建一个框架以面向外部 各种不确定的环境。所以一个完成的项目,往往由一堆功能组成,以达到客户标书中的要求;而产品,则是由一个个场景组成(如同word软件,先给你的是删除、拷贝;但后来归纳成了不同的场景,如“图表”“审阅”)。再譬如,项目型的开发,往往在测试中以Achieve(获得)要求为主,QA(质量保证)很粗略有时候是售前,有时候就是程序员本身;而产品型的开发,往往需要在设计时就让测试介入,在产品使用的场景上,设计各种“破坏”的Case(场景),加以让产品鲁棒。 再譬如,项目型的产品白皮书,往往是功能手册;而产品型的白皮书,需要严谨的按照测试环境和用例给出Benchmark(基准)。

这些都需要加以推敲和分析。因为国内项目型公司很多,这是由大环境造成的,大家都得吃饭;但是到了一定程度,这些公司都有瓶颈了,都想转型。但突然发现在过往的项目中很难去抽象,有部分原因是项目难以积累,当时就打的快牌;但还有部分原因是,最早就没有主题思路,在产品积累中没有足够的投入。

综上所述,我想和大家分享的,是希望大家正视、面对这些事实,然后挑选一个合适的路径去发展公司的业务"