在風口談談我對SD-WAN的冷思考
發布時間:2019-01-04作者:小編閱讀:0
SD-WAN將是2018年𒀰最具有投資價值的風口,這𓄧不是預言,因為2017年就已經是了,只不過GARTNER不一定看得到。如果連GARTNER都能畫出曲線圖,那就已經不算是機會了。
然而自古以來,真正的風♔口必定是火山口,只有極少量碳元素ꦅ能夠在瞬間的高溫高壓下成為鉆石,大部分紅紅火火的巖漿,24小時之內就會化為塵與土。
在和SDWAN短兵相接的2017年,我遇到了很多問題,解決了很多問題,進而有機會與新的問題格斗。但是有一個問題始終在我腦海里盤旋,面對一個完全不可能用數學模型🅘來描述的互聯網,模型化的控制算法有用嗎?
昨天晚上,我終于把這事想明白了,沒用。
如果有用,1997年的互聯網就已經被算法統治,不需要等待20年,更何況就洞察問題的眼光和解決問題的能力而言,互聯網的第一代開拓者要比后世高明得多。到今天為止,除了虛擬化和云計算,我們找不出任何能夠與奠基性互聯網技術相提并論的東西。直到2018年,整個互聯網仍然是在沿著1988年就已經形成的趨勢發展,只是前進的速度越來越快而已。即使是AI,也只是提高了加速度,還遠遠達不到𒈔變革趨勢的地步。
任何一🎐種互聯網產品,一定是因為與一代人緊耦合而成功,當這一代人逐步老去,產品也隨之凋零。無論是FACEBOOK、TWITTER還是微信、QQ,都會是我們的陪葬品。
但是在遠離用戶的TCP/IP協議棧,TCP、IP及其衍生品卻已經🍬安然陪伴了幾代人,至今沒꧙有衰落的跡象,而且除了學術圈,從來沒有人認為它們已經衰老。
TCP/IP協議棧里的那幾個基礎協議,兩只手就能數過來,為什么能夠打破周期律的魔咒?
其中的原因,是人性,或者說,人性中的最大公約數。
從有文字記載的那一代人開始至今,人性中共通的部分幾乎沒有發生過變化,而且是以矛盾的形式成對出現:貪🌼婪、恐懼、從眾、ℱ獨行。
TCP/IP的核心協議之所以能夠持久到無人懷疑其持❀久性,恰好是因為設計理念與人性中的最大公約數緊耦合,堅持中庸之道,而與其中個性化的部分松耦合ꦇ甚至隔離。
而我們日常打交道的互聯網產品設計理念,恰好相反。
在人性的共性與特定人群的個性之間如何取舍,決定了一項技術的壽命以及存活形式。但這種取舍,又由產品和技術的定位決定,應用層的❀技術和產品,只能追逐特定群體的個性化需求,而底層的技術,則必須與個性化保持距離。
那么問題來了,SDWAN這個精神分裂癥患者,應該如何選擇自己的落腳點?
首先SDWAN屬于地地道道的網絡技術,然而服務的對ꦛ象又是極度個性化的客戶需求。網絡中共性的需求,網絡基礎設施已經滿足得很好,🍸不需要SDWAN。SDWAN的生存空間,在巨無霸SP、CP們無力或者無暇顧及的縫隙中。
服務于運營商和大型互聯網公司的SDWAN技術,我始終認ꦚ為應該歸于基礎網絡技術,這類技術首先考慮的不是個性化、靈活性,而是穩定性和可用性。這類技術的特點,是防守而不是進攻,是彌補廣大用戶日益增長的普遍需求與基礎設施盡力而為服務能力滯后之間的差距,而不是先行滿足少數用戶的個性化需求。
這就是為什么國內三💖大運營商雖然在戰略層面高度重視S💝DWAN,但在戰術層面莫衷一是甚至自相矛盾的原因。防守還是進攻,這是一個問題。
初創型SDWAN公司的優勢在于,根本不需要糾結于選擇題,只能進攻,防守即死亡。
為了達成持續攻擊的目♚標,SDWAN只有一種選擇,在運動中持續尋找個性化需求與復雜網絡狀態之間可控的交集,并迅ꦉ速榨取其中的資源。
國內外初創型SDWAN公司很多,但是據我的觀察和了解,真正具備良好盈利能力的,都是運動戰、游擊戰高手,技術粗糙、身手敏捷🐬。而那些技術精致、身手笨拙的公司ꦿ,都沒有掙到錢
現在越來越多的人在各種宏大的場合ꦛ講SDWAN,如果粗略劃分一下,可以分為架構、算法兩大流派,但是很不幸,這個行當里最不值錢的恰好就是架構和算法。
先說架構,🎃大部分人認為架構即規劃,只要🀅有了好的架構就等于成功了一多半。這個觀念至少落后時代30年。所有的架構都必須建立在對網絡的正確理解之上,正確理解的東西越多,架構就越精細,反之則越粗獷,甚至看起來根本不像個架構。但是對于互聯網這個復雜巨系統,沒有人能夠提前獲得足夠的正確理解,甚至少得可憐的正確理解都不可得,在這個空洞的基礎上,架構從何而來?如果稍微留心一下那些熱衷于談論架構的會蟲,很容易發現他們往往醉心于編織一個精致完美的系統架構圖,但是對于網絡中到底發生了什么卻幾乎一無所知。這樣的架構,連他們自己都不敢用。在互聯網這個領域,架構歷來只是對既成事實的總結,而且是對影響足夠廣泛的既成事實的總結,這就是為什么谷歌最近4年來發布的關于SDWAN的論文,口氣越來越謹慎,越來越不像SDWAN,而更像是對一個公司內部技改項目的經驗總結。
至于算法,現在已經有人考慮用AI解救網絡工程師了。但是別忘了一切👍算法的血液都來自輸入數據,算法越復雜,對輸入數據的精確性和全面性要求越苛刻。而互聯網的𒁃窘境恰恰在于,無論是運營商還是互聯網公司,都缺乏足夠支撐稍微復雜一點的網絡工程師替代算法的數據。
但是,這些宏觀上的困境,并不影響SDWAN在微觀世界中有所作為。
剛才我們提到,SDWAN屬于精神分裂型技術,既要緊貼用戶的個性化需求,又要順應廣域網的復雜特性,這是不利的🥂一面。但是精神分裂癥患者有精神分ꩲ裂癥的玩法,那就是在宏觀不確定性中捕捉暫時、局部的確定性。
下面,回歸正題,談一談我的一些冷思考。
首先,SDWAN的核心,不是控制,而是管理,而管理的核心,是網絡狀態一致性維護的能力。
當無數人在各種場合大談SDWAN控制面🍰如何如何的時候,任何一個知道點常識的人都應該自然而然地想到以𒁏下個問題。
第一,控制的核心是算法,也就是模型化的解決方案,但是模型化的解決方案必定面向𓄧可以模型化的問題,那些控制算法所面向的問題𝓡,是可以模型化的嗎?
第二,如果算法是問題的核心,為什么二十年前的工程師沒有想到使用這些算法,難道是前人愚鈍?
第三,今天被熱議的ꦕ這些控制ꦑ算法,大部分在至少十年前就已經被嘗試過了,只不過那時候還沒有SDWAN這個東西,當時為什么失敗了?導致失敗的因素,今天都被消滅了嗎?
上述三個問題的答案,大部分是否定的。因為要獲得控制算法對輸入數據所要求的準確性和時效性,控制面本身幫不上任何忙,只能依靠管理面。而管理面的效率,取決于網絡狀態信息獲取和測量的手段。在過去的幾十年里,這些手段的進步非常緩慢,并且常常被“測得快和測得準”之間的矛盾所困擾。現在你能夠見到的大部分SDWAN體系架構中,管理面⛄只是一個配角,采用的技術也和傳統的網管處在同一個水平,這樣的系統設計,我實在看不出來能比一個傳統ꩲ的網管系統強到哪去。
網絡信息的采集只是網絡狀態一致性維護的一部分,信息采集不全、不準,降低控制的效率即可,不會有什么害處。但是網絡狀態一致性維護的另一個方面,在控制平面和數據平面保持控制狀態的一致性,卻只能做好不能做壞。一旦數據平面出現了應該撤銷而沒有撤銷的僵尸流表或轉發表,就如同給自己埋下不定時炸彈,積累到一定🅷程度,足夠摧毀整個網絡。然而不幸的是,🍨這個問題也被廣泛地忽略了。
什么才是好的網絡狀態一致性維護?在SDWAN這個領域,做的最好的是谷歌。但是如果把視野放寬,那些古老的協議甚至足ඣ以令谷歌望塵莫及。例如飽受詬病的分布式路由🌳協議。
幾乎所有華麗的SDWAN系統架構都會以批評分布式路由協議傻、笨、慢開場。但是事實恰好相反,分布式路由協議的設計之智慧,完全不是現有的SDWAN可以相提并論。因為這些協議牢牢♈把握住了以網絡狀態一致性維護為核心這個精髓。
以OSPF為例,整個協議的核心根本不是迪杰斯特拉算法,而是路由器應該“與誰交換信息、交換什么信息、什么時機交換信息”。這個信息,就是網絡拓撲信息。由于分布式實施,每個路由器并不知道自己獲得的拓撲信息是否全面、實時和精確,也不知道以多快的頻率測量和更新拓撲信息能夠達到最佳效果。這是OSPF的困境。為此OSPF的設計中采用了兩個巧妙的機制,第一是利用廣播的絕佳滲透性確保信令消息的可達性不受拓撲變更以及路由失效的影響,構造出一個獨立、彈性的信令平面。第二是我行我算,無論ꦡLSDB是什么樣、應該是什么樣,只要有變化就計算,盡管就單次計算而言,結果可能錯誤百出,但是這種持續的計算行為遲早會收斂到正確的狀態,而且絕不會出現僵尸路由𝓀表這樣的問題。所以OSPF對網絡狀態一致性的維護完全可以在不知道真實網絡狀態的情況下展開,而且總是趨向于正確的方向,具備自我清潔功能。反觀SDWAN,控制消息傳遞的可靠性幾乎完全依賴于預設專線或者靠天吃飯,而最常見的網絡狀態一致性維護機制只是轉發設備與控制器失聯之后仍然能夠存續轉發策略,并在一定的時間之后徹底刪除。僅此而已。
這意味著SDWAN無論是在獲取網絡狀態還是保持控制策略一致性方面,都存在明顯的脆弱性,當網絡不那么完美的時候,SDWAN系ཧ統既沒有能力為控制面提供準確實時的輸入,也沒有能力對錯誤的計算結果進行抑制和清除,更不可能在網絡恢復穩態之前朝著正確的方向自動ꦗ駕駛。
大部分SDWAN并非工作在完美的環境之下,要么以OVERLAY的形式立于危墻,要么租用并不完全可靠的專線資源,這種場景下,脆弱的管理面之所以沒有引起足夠的重視,我認為主要是因為現有𒈔的SDWAN系統規模仍然非常有限,依靠人工也能收拾殘局。但是一旦系統體量突破某個限度,管理面的問題必定會浮出水面。體量如谷歌者,無論是在數據中心內部SDN還是DCI🅰皆非常倚重分布式路由協議的設計理念,而Juniper引以為榮的segment routing則重新皈依源路由技術,也是因為管理面瓶頸難以突破所致。
任何一個商用的系統都必須以ꦕ提供穩定的輸出預期為前提,這個穩定的輸出,顯然取決于管理面而非控制面。這和AI的命門是數據而非算法🌜是一個道理。
第二,網絡狀態一致性維護的能力꧟,并不總是需要依托控制器實現,中小規模網絡中,人工的效率甚至有可能更高。
在過去的兩年中,每與同行談論SDWAN,被問的最多的問題并不是我們用SDWAN解決了什么問題、滿足了哪些特殊的需求,而是“你們的控制器是基于ODL還是ONOS”。這代表了一種根深蒂固♏的誤解,干SDWAN,必須先有控制器,控制器是系統的核心。但是根據我的經驗,控制器不僅不是核心,而且完全可以不存在。尤其是在中小規模的SDWAN系統中,雇傭一個經驗豐富的網絡工程師所能帶來的收益,遠遠勝過雇傭一群碼農開發一個復雜的控制系統。這樣的例子我可以隨手舉出三個以上,而且都是這個行當里的吸金翹楚。一旦你掌握了網絡的特性,并且這種特性具備長期穩定性,剩下的事情就只是用最廉價的方式利用和駕馭這種特性了,這件事情遠比想象的要簡單得多。
當然,如果想迅速吸引眼球,也可以給自己披上SDWAN的外衣。
很多只顧埋頭賺錢的公司,確實是在經過大師點撥之后才恍然大悟,原來我干的就是SDWAN啊!
所以說架構這種東西,確實是只能總結,而不能用來規劃的。
如果一個初創公司告訴你說,我們目前還沒有賺錢,但是正在奮力開發S𝔍DWAN控制器,那么至少有🍃百分之百的可能,這公司離死不遠。
但是,當SDWAN的規模突破某個限度,人工的劣勢就會顯現,運維自動化的重要性必然浮現。這個臨界點將出現💧在網絡狀態一致性維護難以維計的時刻。但即使是在這個時刻,控制器仍然不是必需品。
第三,SDWAN的生存之道,是去生產環境中擴大與真實問題的接觸面,并藉此遏制不切實際的想法。
SDWAN最重要的任務,可能就是要在充滿不確定性的宏觀網絡環境中捕捉暫時、局部性的確定性。這件事情也指望不上算法,因為所有的算法都依賴于確定性的輸入和確定性的模型。效率最高的方法,是先沖上去再說,在生產環境中與真🍒實的問題充分接觸,藉此區分哪些是主要矛盾,哪些是次要矛盾,順便搞清楚哪些事情確實有利可圖,而哪些事情只是看起來很美。
人人皆知奧卡姆剃刀原則,🐲如無必要勿增實體。但是SDWAN本身所處環境以及面臨問題的復雜性,會讓這個領域看起來如同AD HOC一樣遍地都是創新性的問題,但是到底哪些問題值得解決,仍然要靠生產環境來檢驗。
僅就這一點而言,學術圈很難在SDWAN領域有所𒅌建樹,除非與工業界緊密結合,或者自己搞出一個能承載真實用戶需求的SDWAN系統,用實驗數據說話。
從今天開始,就是2018年了,很多人正準備投身于SDWAN的淘金熱當中,或者借著SDWAN的風頭寫幾篇不錯的🌳論🧔文、拿到幾個多金的項目。在這個火山口上,我覺得首先應該保持冷靜,因為這個領域的成熟程度,無論是技術還是產業,都遠遠超過媒體們的想象。這既不是無主之地,也不是處女地,巨獸和小型食肉動物,已經站滿了每一個賽道,后來者若要立足和生存,需要以更加務實的態度以及更加高超的技巧,開辟新的賽道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,請聯系站長郵箱:shawn.lee@eliℱancloud.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。
標題:在風口談談我對SD-WAN的冷思考
TAG標簽:SD-WAN
地址://beijingyml.cn/article/20180104230802.html