通过滴滴技术博客:探寻造成此次P0故障的真正原因

2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉。

来源:https://weibo.com/2838754010/NuMAAaUEl

目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S 集群导致。

1. 集群体量大

最大集群规模已经远远超出了社区推荐的5千个 node 上限,有问题的爆炸半径大。

2. 版本升级跨度大

直接从1.12 升级到了1.20,跨越多个版本,有可能存在api不兼容的问题。

3. 升级方式应该选择了原地升级

虽然滴滴有能力基于K8S二次开发,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级大不少。

比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。

至于为什么采用原地升级方案,估计还有很多细节我们不得而知,但是此种方式确实有点激进,船大不好掉头。

 

来源:https://www.51cto.com/article/775071.html

发布于

YouTube 仅用 9 名工程师就能支持每天 1 亿次视频观看的 11 个原因

作者 | NK

策划 | 言征

2005 年 2 月, 美国加利福尼亚州。全球知名的在线支付服务公司PayPal已经走过 6 年零 2 个月的时间,3 名早期员工就像发现了互联网世界的流量密码一样,开始寻找属于他们的机会。

最后,他们希望建立一个分享视频的平台。后来这个在车库里诞生的平台,就是大名鼎鼎的YouTube。

最初,他们的财力有限,只能通过信用卡债务和基础设施借款为 YouTube 筹集资金。但财务上的紧张,也倒逼着他们打造出一套出色的可扩展性技术。

第二年,他们平台的视频日播放量就达到了 1 亿。更令人出乎意料的是,他们只用了 9 名工程师就做到了这一点。

YouTube 是如何做到的?下面为大家一一揭开当年的设计要点。(Ps:乍看起来,朴实无华,大巧不工。)

1、神奇飞轮

他们采用一种“飞轮”的方法去收集和分析系统数据,以便于可扩展性的实现。他们的工作流程是一个不断循环的过程:识别瓶颈→修复瓶颈→喝水→睡觉。这种方法好处在于避免了对高端硬件的需求(不用大规模部署),降低了硬件成本。

可扩展性循环(Scalability loop)

继续阅读YouTube 仅用 9 名工程师就能支持每天 1 亿次视频观看的 11 个原因

发布于

马斯克直播自动驾驶「去小扎家」,45分钟仅一次人工干预:FSD V12不再会是“测试版”

马斯克还真开着特斯拉“去小扎家”了,全程直播无剪辑!

不过说“开车”已经不准确,因为这回是新版FSD全程给马斯克“代驾”,45分钟里他本人只上手干预了一次。

也就是钢铁侠亲自上阵,搞了一场自动驾驶路测。

坐标加州Palo Alto,从特斯拉新工程总部出发,中途曾用谷歌地图搜索扎克伯格家地址并导航。

马斯克搭乘一辆老款Model S,硬件还是基于HW3的版本,但软件已经是未正式发布的新版FSD V12。

尽管画质不到480p,但这场𝕏平台上的直播,已吸引超1000万人在线围观。

之所以备受瞩目,倒不全是大家伙吃瓜“马扎笼斗”的热情太高,主要在于FSD V12被称为特斯拉自动驾驶最重要的一次升级:

实现了完全端到端(End-to-end)方案,输入一端是图像,输出一端是对汽车的控制指令,中间完全由神经网络处理。

马斯克自己的说法要更咋呼一点:

光子进,行为出,和人类一样。

试驾过程中,马斯克多次表示现在的系统没有一行规则和条件判断代码,不需要高清互联网地图。

比如,在经过路边一位骑行者时,马斯克就强调“没有任何代码声明要给骑自行车的人让行,没有等待x秒之类的东西,只有神经网络。”

This is all net, baby, nothing but net.

知名科技博主Robert Scoble表示:世界从今晚开始改变。

十年后,人们将把这一时刻定义为机器人的首次公开演示,机器人仅通过看视频就学会在现实世界中移动。

这是软件构建方式的范式转换。

马斯克也回复他:准确的。

同样令人惊讶的是,所需的推理计算功率只需要100W。

继续阅读马斯克直播自动驾驶「去小扎家」,45分钟仅一次人工干预:FSD V12不再会是“测试版”

发布于

大模型救了阿里云

撰稿 | 言征

“分拆”焕新了阿里,而大模型救回了阿里云。

昨天发布的“新阿里”的第一份财报中,2341.56 亿元,同比增长14%。数据可谓“情理之中,意料之外。”

情理之中的是,阿里国际和菜鸟业务的超预期增速(分别为41%、34%),因为此前已经有不少有关这两块业务快速增长的消息。意料之外的是,一旦我们将目光聚焦到此前连续三个季度收入接近为零甚至负增长的阿里云,竟然奇迹般地“回魂”再生。

一、财报中的阿里云

去年12月,阿里云已连续两季度营收增长接近0%,彼时还存有云安全事故余波;今年的一季度,阿里云业务收入同比下降2%。阿里云想要重获增长的难度可见一斑。

在新出炉的财报里,阿里云收入增长4%至251.23亿元。据财报表显示,阿里云的增长受阿里巴巴并表业务及金融服务、教育、电力和汽车行业的客户所驱动。

阿里云也表示,这主要是来自于AI热潮带来的算力和模型服务需求的推动。

继续阅读大模型救了阿里云

发布于

GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!

最差的人类语料,也要胜过AI生成的文本。

随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。

甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?

然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。

也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。

因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。

论文地址:https://arxiv.org/abs/2305.17493v2

但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。

洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。

继续阅读GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!

发布于