引言:在好未来,有这么一群技术人,他们和老师、学生们打成一片,用投身教育的赤诚之心和解决技术难题的死磕精神,让教育与科技碰撞出绚烂的火花。
如果问什么是在线教育最重要的技术指标,稳定性一定是高票热门答案。只有稳定的在线教育系统才能让知识覆盖到天涯海角。然而,面对每天数以千万计的系统请求响应,“稳定”二字困难重重。
在保障稳定性的专项攻坚行动中,好未来旗下学而思网校课堂研发团队不仅形成了全面的应急预案,更通过一次次的“放火演练”,杜绝了大部分可能发生的问题。
他们是怎么做到的呢?本期教育科技背后的故事,让我们走进稳定性专项攻坚行动!
战备:团队协作,群力合一
一座大厦的稳固,离不开每一块坚硬的钢筋。保障学而思网校系统的稳定运行,也同样是一个系统性的工程。这是一个覆盖了学而思网校技术团队与好未来技术中台的整体联动工程,在每一次高峰流量抵达之前,都会有长达一个月的摸排演练。
当流量高峰到来时,全员都拿出了电商面对“双十一”流量考验战一样的高度警惕心态。“双十一”的流量顶峰往往只集中在一天或几小时,但在线教育的流量高峰期,不似高峰,更似高原。学生会在长达数月的时期内密集地登陆学习,在这期间就要确保每一堂课都不能出问题。
为此,每一个与直播课堂相关的团队,无论是前线相关的产研部门,还是基础服务、直播、AI等技术中台相关团队,无论是苹果、安卓、桌面端哪一个系统,都必须要囊括在保障机制之中。
图注:跨团队集体协作
这是几十个人一起跨团队协作的大团队。一般来说,一个项目参与的人和团队越多,往往做决策的过程越缓慢,但是这几十个来自不同部门和业务线的技术人,在经历了无数次的备战演练之后,形成了相互间的默契,并能凭借各自的知识体系和工作经验合作应对问题。因此,参与稳定性保障不仅是对好未来技术人专业性的最高认可,也是一次极大的锻炼与成长机会。
这一套长期共建机制,形成了对稳定性风险防范的战略纵深,实现了对突发情况的快速响应,从底层建立了学而思网校的稳定性“大厦”,保障学生的课堂体验始终在线。
战前:放火演练,缜密预案
看到“放火演练”这四个字可别吓一跳,这是为了确保学而思网校的产品能够扛住所有紧急突发状况,要时不时地主动将其置于紧急突发状况之中。
为了不断验证并提升保障用户体验的稳定性能力,学而思网校要被一次次地置于不稳定的“火情”之中,这可以视作一次次“消防演习”。当服务器不再响应,当网络不再顺畅,当部分组件突然宕机,老师还能不能通过学而思网校正常授课,学生还能不能顺畅学习并参与课堂互动……如果能够扛住种种问题,就代表学而思网校的“抗逆性/鲁棒性”是合格的。
面对“放火”团队绞尽脑汁花式制造出的各种困难,学而思网校制定了智能与人工结合的上百种预警方案。如异常流量到来时,动态扩容能力会迅速对承载容量进行延展;基础组件的监测能力,会及时发现无响应节点;“未来云”可对信息进行备份,一旦数据有误,可有兜底方案;上限管控机制,会及时对高峰流量进行削峰处理,通过动态调控不同客户端的延迟,便可将高峰削为高原,使服务器可以在流量高压下稳定运行。
除了技术预案以外,人工的把控预案同样严丝合缝。如课件的修改需统一时间和流程的发布窗口,保障合规和准时更新。而对于用户的反馈,则开通了绿色通道,一旦学生或教师有异常情况,学而思网校课堂研发团队便可在第一时间介入处理。
正是这些“算无遗策”的种种预案,让学而思网校成功应对了迄今为止的所有流量高峰期,保持了重大事故率为0的记录。
战时:作战指挥部全员盯盘,时刻准备着
每当流量高峰期到来时,学而思网校都会有一间特殊的会议室始终保持着“紧张的安静”。在这个会议室里,来自不同部门的几十位技术人聚在一起,一张巨大的稳定性看板的上百项指标,以秒为单位跳动着,时刻呈现着学而思网校客户端的健康度,这便是战时盯盘环节。一旦有任何某地响应延迟过高等异动情况,就从这个会议室向不同的业务线下达指令,快速排查并完成应对工作。
这个会议室有一个最核心的任务指标——S0级的事故不允许发生,即不允许有学生因为技术故障错过课堂,导致不得不事后补课的情况。
图注:集体攻坚
“我们就像战时的指挥部一样,迎着密集的炮火,开辟一条安全通路”,学而思网校技术团队相关负责人比喻道。
“通过盯盘,能够直观看到稳定性在明显提升,这给了我们很大的成就与价值感。”每一次的高峰考验都会带来全新的方法论和经验总结,帮助学而思网校的课堂研发团队站在更高的起点上,为下一次冲锋做出更充分的准备。
在好未来,做技术是为了做教育。在学而思网校课堂研发团队看来,保障稳定性,正是在用技术人的方式,用爱呵护着每一个孩子的求知梦想。