DevOps标准工作组组长,DevOps 国际标准编辑人。长期从事开发运维方面的相关研究工作,包括云服务的运维管理系统审查等相关工作。参与编写《云计算服务协议参考框架》、《对象存储》、《云数据库》、《研发运营一体化(DevOps)能力成熟度模型》系列标准、《云计算运维智能化通用评估方法》等标准20余项。参与多篇白皮书、调查报告等编制工作,包括《企业IT运维发展白皮书》、《中国DevOps现状调查报告(2019、2020、2021、2022)》等。参与评估DevOps能力成熟度评估超过50个项目,具有丰富的标准编制及评估测试经验。
近年来,人工智能、大数据、云计算等新一代信息技术加速创新,并日益融入经济社会发展的各个领域和阶段,数字经济的高质量发展已成为我国国际竞争力提升的重要领域。将XOps与SRE大运维体系作为重要抓手,赋能企业构建高质量创新发展新格局。
1、 XOps应用创新发展体系;
2、构建新时代大运维体系;
3、SRE系统可靠性与连续性保障能力。
2015年6月加入华东师范大学数据科学与工程学院,在此之前先后就职于IBM中国研究院和百度(中国)有限公司。在VLDB、ICDE、 SIGIR、ACL等领域重要国际会议上发表多篇论文。目前的研究方向为内存事务处理,以及基于机器学习技术的自适应数据管理系统。曾获国家科技进步二等奖、教育部科技进步一等奖
在数据库系统的运维过程中,运维平台积累了大量有价值的数据。这些数据可能是故障诊断案例,索引创建案例等等。本次分享以索引推荐为主题,介绍如何从大量索引创建案例中学习DBA的经验,实现智能化索引推荐。主要内容包括:索引推荐的问题定义和工业界成熟方案;索引推荐近几年的研究进展;我们对索引推荐问题的建模;索引推荐的业务场景下效果。
10年以上Oracle数据库技术支持、运维管理经验,支持过的数据库超1000套,长期为大型企业核心业务系统数据库提供方案设计、性能优化、故障处理、应急容灾、安装配置等技术服力。在15年的数据库项目管理实践过程中积累了丰富的实战经验,包括:全球最大的OLTP系统与OLAP系统数据库设计维护经验,16个RAC集群大规模数据库系统设计维护经验,500公里以上ACTIVE DATAGUARD数据库容灾系统规划实施经验,各种疑难杂症问题处理经验,各种平台版本数据库维护、优化经验等,在性能优化、规划设计、故障处理、安装配置等技术领域有自己独到的见解和处理经验。
新浪微博研发中心高级总监,负责微博基础架构和流媒体等研发方向。在高可用架构、视频、直播等技术方向有丰富的研发实战及管理经验。同时作为微博技术新兵训练营负责人,主导技术新人技术融入提升培训体系。技术社区的拥护者,多次担任业界前沿技术大会的讲师及出品人。
数据库领域经验丰富,涉猎众多不同类型的数据库和架构,历任多家公司数据库技术负责人,带领团队完成从无到有的分布式架构转型、运维自动化平台建设等工作。平时热衷技术学习和交流,多次做为dbaplus、GOPS、Postgresql、mongodb等社区大会的演讲嘉宾进行主题分享。近些年逐步关注在数据库容器化、信创等领域,并带领团队进行了结合开源和信创的技术创新和积极转型。
工商银行软件开发中心数据库技术研究及实施团队负责人,数据库信创转型领域的技术带头人,15年数据库领域工作经验,带领团队负责工商银行数据库技术前瞻性研究及研判、数据库技术体系规划及建设、数据库信创转型解决方案建设、数据库技术在金融领域的创新应用以及全行的数据库技术支撑。
工商银行统筹金融业务创新发展和技术体系演进需求,打造平稳、高效、安全、普遍适用的一体化数据库转型解决方案,突破传统数据库转型方面的主要技术瓶颈和实施障碍,有效屏蔽数据库特性差异和业务逻辑,有效降低技术复杂度和转型工作量,解放应用研发生产力,让科技力量更加聚焦于金融业务创新和数字化转型领域。本议题将聚焦传统数据库转型领域,分享工商银行平滑迁移技术方案及具体实践经验。
建设银行运营数据中心技术创新发展处创新研究组组长,智能运维国家标准核心编委、ITSS智能运维标准评估师。近20年的金融行业运维工作经验,曾负责建设银行全行IT服务管理体系建设、数据中心生产质量管理、智能运维项目群管理和创新研究等工作。
介绍智能运维的机遇与挑战,建行智能运维建设的目标、基本框架、主要创新点、具体实践以及智能运维标准的研制情况等。
中国农业银行研发中心资深专员,AIOps运维数据分析平台专项负责人。深耕运维领域多年,在运维领域有多项课题研究成果、专利、行业标准等内容产出,目前负责农行AIOps运维数据分析平台建设,致力于推动智能运维转型。
从AIOps建设背景、落地思路、实践案例、未来方向等四个方面介绍农行AIOps智能运维建设之路。
1、了解大型银行如何通过数据赋能、场景驱动的方式建立AIOps智能运维体系;
2、了解大型银行在AIOps领域开展了哪些场景实践,如何通过场景建设来提升运维效能。
2017年起从事AIOPS方向研究和落地工作,涉及方向包括异常检测、根因分析、调度优化、时间序列预测等;2021年起加入美团数据库中心,专注AI4DB领域,致力于数据库自治能力构建。
数据库自治指的是数据库具有自我管理和自我优化能力的能力,该能力可以帮助企业节约大量时间和人力成本,同时提高效率和保证数据安全性。AI4DB作为构建数据库自治能力的关键技术,在实践中发挥了非常重要的作用。在此次分享中,我们将为大家详细介绍AI4DB在美团数据库自治能力构建过程中,各方面的应用实践。
1、AI在DevOps领域能解决哪些问题?
2、 如何实现大规模时间序列的实时异常检测及诊断、自愈?
3、大语言模型LLM能带来什么新的改变?
前 58 同城技术专家,前理想汽车数据库架构师,现任 OceanBase 解决方案架构师,负责 OceanBase 的社区生态建设与各类场景下的数据库解决方案。
混合云作为云计算的一种形态,通过私有云和公有云协同工作,提高用户跨云的资源利用率,增加业务灵活性。OceanBase4.x单机一体化架构架构解决敏捷态业务对资源池化与弹性扩缩容需求同时,也满足了企业级混合云的业务架构和HTAP场景,以及RPO=0,RTO<8s的高可用保证,为越来越多的混合云企业提供了核心产品竞争力。
硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利30余项,IEEE国际会议论文收录4篇。
1、以京东科技内部真实运维面临的问题为例,介绍京东科技智能运维整体能力、传统运维与智能运维在故障预警到根因定位的直观比对时间轴及智能运维建设的价值。
2、时序异常检测算法学件在京东科技线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景落地经验。
(1)时序指标异常检测算法学件:单、多指标时间序列分解、aiops时序特征库搭建、时序网络模型搭建过程中算法超参数设置及如何做好运维算法持续迭代能力等建设经验
(2)时序日志异常检测算法学件:揭秘如何将NLP技术应用于运维日志分析,从日志角度发现异常问题
(3)如何从多模态数据中挖掘根因指标、提取历史故障异常模式(指标与日志异常模式的关联)
3、京东科技内部根因定位的整体架构及全链路根因定位实践。
(1)京东科技内部故障定位方案,如何将专家经验灵活组合多种定位策略,将传统根因定位与机器学习算法结合
(2)故障预警到根因定位的算法学件介绍,主要包含四大模块:智能基线、曲线相似度计算、聚类特征树算法、强化学习多维根因定位算法
(3)以一个案例为切入点揭秘如何做从业务到基础资源的全链路根因定位
爱奇艺智能平台部高级技术经理,负责视频播放服务和账号管理服务的系统架构和功能建设。在分布式部署、高可用架构等技术方向有丰富的研发实践及管理经验。
爱奇艺App作为国内头部的长视频应用,注册账号数及活跃用户数都非常可观。对应的数据存储体系建设具有相当的技术挑战,在提供每秒百万级高速读取能力的同时,需要保证持久层与缓存层的数据最终一致性。对应这个技术场景,我们有一定的实践经验与大家分享。
1、 分布式的、高可用存储系统建设;
2、 数据一致性保障的实现;
3、可用性与一致性的设计平衡。
上海爱可生信息技术股份有限公司 技术专家
大模型与向量数据库:敏捷运维的创新引擎。大模型具备强大的语言理解和生成能力,向量数据库能高效存储和索引大规模向量数据。将两者结合,可实现高速数据访问、智能决策和快速问题解决。通过大规模数据分析与大模型预测,我们能快速发现关键问题、优化系统、提升可靠性和效率。演讲中将深入探讨原理、优势和应用场景,分享创新解决方案和成功案例。大模型与向量数据库将引领敏捷运维迈向新境界。
1、 智能决策和问题解决:如何利用大模型的语言理解和生成能力,结合向量数据库的相似性搜索,快速做出敏捷决策和解决问题?
2、系统优化和故障排查:如何通过对大规模运维数据的分析和挖掘,结合大模型的预测能力,快速发现系统优化和故障排查的关键问题?
3、数据驱动的运维策略:如何利用大模型和向量数据库的结合,实现数据驱动的运维策略,提升系统的可靠性、效率和安全性?
浙江移动SRE运维工程师,坚持“持续精进,超越自我”工作价值观。目前主要负责浙江移动SRE整体工作,致力于系统连续性保障,具备10年的应用维护经验,熟悉应用维护、稳定性提升、架构治理、灰度发布、流量回放等工作。
近几年SRE在行业中越来越被重视和关注,那么问题就来了,SRE到底需要负责什么具体工作,这些工作的广度和深度又是如何界定,有没有SRE全局治理生命周期?浙江移动SRE团队开展了SRE运维体系成熟度研究,它将给大家阐述和回答以上问题,同时也留给大家更广的研究探讨方向。
1. 如何快速组建SRE团队;
2. SRE需要具备哪些专业能力;
3. SRE全局治理生命周期;
4. SRE实践案例技术分享。
首师大毕业,现就职于新东方教育,曾就职于搜狐、快手。搜狐大厦资深老烟民,曾在搜狗、搜狐视频移动端NO工作过,负责运维及后台数据研发。快手第一位SRE,曾负责快手「所有」运维基础化建设,规划并参与了2020年春晚红包项目。现任新东方教育运维研发高级经理,负责企业基础架构标准化体系研究、自动化平台研发等。
新东方集团有几十个地方校和机构,各地散落的存储和计算资源没有统一化管理和流程,我们在此基础上,研发了新东方运维门户系统(Pandora),该系统承载了线上所有业务的云资源申请、基于FinOps的成本控制、数据平台、安全中心等,同时根据新东方业务的特殊性,将基础数据进行了资源整合,形成了运维一体化的安全数据平台。
1、统地了解平台研发设计初期,如何做好服务设计、开源软件与自研结合;
2、针对已有数据流程,最小化研发成本,集成至平台,加快整合速度;
3、理解什么是安全开发及疑难杂症、问题点;
4、对于FinOps运维和研发关注点的经验和建议。
工作10余年,先后就职于华为,腾讯,百度,现在vivo担任云存储研发负责人,研究方向:对象存储、文件存储、NOSQL存储等分布式存储领域。
存储系统作为支撑公司业务的基石,其重要性不言而喻,对存储系统来说我们一般会用服务可用性和数据可靠性两个指标来度量存储系统的服务能力。
之前任职于携程、饿了么的核心中间件团队,深入参与多个自研日志平台、监控平台、时序数据库等系統的研发,深耕可观测性领域近 10 年。目前在货拉拉技术中心负责整体监控体系与监控平台建设。
本分享将介绍货拉拉的监控团队在智能监控领域上的建设成果。其中,货拉拉的监控团队通过采集丰富的云产品的观测数据、收集所有自研中间件的指标数据、将链路与日志数据和指标数据融为一体,打造了一个功能强大的监控平台。在运维领域,货拉拉的监控团队提供了清晰易读的以图展示的业务拓扑,实现了业务指标大盘的自动巡检功能,开发了智能降噪、维度下钻、根因分析等功能的智能报警平台,极大简化了运维工作,显著提高了应用的稳定性。
1、 如何在多云环境下,集成云产品指标、中间件指标、业务指标,形成统一的监控平台;
2、 如何从运维需求出发,设计行之有效的监控产品功能;
3、了解智能报警平台如何在货拉拉落地,及其具体实战效果。
先后负责中间件运维、在线业务保障和SRE稳定性工程;《2021 07 13 我们是这样崩的》文章作者;从0到1带领运维向SRE转型,建设B站稳定性体系;主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项;当前专注SRE稳定性体系规划建设和落地实践。
传统的业务质量体系建设需要投入大量人力做业务梳理、场景定义、指标计算、异常盯盘等,效率低,成本高。SRE中的SLO工程给出了更科学、高效的质量体系建设方式。本次分享将会介绍SLO工程方法论、如何实践SLO工程、以及如何围绕SLO工程演进到GOC体系,来建设1-5-10能力和风险控制。
1、 了解可用性指标的观测对象、观测方案和落地实践;
2、 了解Google SRE中最核心的SLO工程方法论及SLO实施经验;
3、 如何以SLO为核心来建设业务质量体系;
4、在没有GOC组织的情况下GOC能力如何落地。
在字节跳动从事图数据库研发,主要Focus存储层,设计并研发第三代分布式图存储层。
1. ByteGraph发展历史
2. ByteGraph当前架构的一些问题。当前基于分布式KV架构的存储引擎有一些问题
(1) 存储成本高 (3/5副本)
(2) 性能不高:(WAL tail / truncate 只能逐个操作,qps放大),没有分片粒度的wal导致分布式事务性能不高
(3) 功能:没有分片级别的WAL,导致从机房一致性为最终一致,无法提供强一致读
(4) 写放大高: 基于LSMT的KV用level compaction,每次覆盖,最终到盘上是几十倍
(5) 当前存储没有和图语义相结合:无法加速一些典型查询
3. ByteGraph第三代分布式图存储层设计
基于提供分布式Blob存储构建图的Btree引擎
(1) 提供分片级别的WAL,提升事务性能,减少WAL QPS,提供从机房强一致读语义。
(2) 利用Blob存储的EC技术,降低成本
(3) 落盘层类似BwTree的存储层LLAMA,同时在其基础上提供精准的统计信息(例如空洞率),用于驱动GC,显著降低写放大
4. 结合图图语义,加速查询
10年数据库运维开发经验,开源爱好者,在开源数据库 中间件推进和落地,降本增效(数据库梳理管控 数据库优化 数据库上k8s)等方面有长期积累。前360数据库运维高级专家,前360运维TC委员, Aerospike中国社区主席,NewsqlGroup发起人,TUG华北区leader。
数据库的稳定性是业务稳定性的基座,数据库的稳定是所有DBA的首要职责所在,本次分享展示知乎如何通过梳理、调优、平台化等手段,保障了数据库的稳定和高效运行。主要内容包括:
1、数据库稳定性概要:定义+方式方法+指标;
2、数据库选型:合适的场景合适的DB;
3、数据库优化:DB规范+调优;
4、平台化:慢日志+监控报警+数据库巡检。
山东移动信息技术部高级专家,具备20+年的IT相关工作经验,曾获“山东省创新能手”、“最美移动人”、“中国移动工匠”、“中国移动科技标兵”等称号,在IT系统架构规划、业务连续性保障、自动化智能化运维、云计算、大数据等方面具备丰富的经验。
对现有的Skywalking、Dynatrace、Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地展示效果;拉通metric、log、tracing(对应cmdb监控、日志、调用链等)三类数据,提供对Iaas、Paas、Saas层横向端到端、纵向端到端以及以业务为视角聚焦串联Iaas、Paas、Saas三层关系的业务端到端运维能力;结合AI能力(根因定位、异常检测),提供实时业务调用拓扑,助力故障定位、根因分析等智慧运维场景。
1、 如何解决指标、日志、调用链等工具分散问题?
2、 如何实现Aiops低代码?
3、如何实现业务级全局端到端?