tp钱包官网下载app正版|字节数据平台

作者: tp钱包官网下载app正版
2024-03-08 05:28:04

有人了解字节跳动data-数据平台部吗? - 知乎

有人了解字节跳动data-数据平台部吗? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册数据数据分析平台字节跳动(ByteDance)有人了解字节跳动data-数据平台部吗?最近刚拿到字节跳动的实习offer,后台开发岗,在北京总部的data-数据平台部。但是目前对这个部门还不了解,网上也查不到有用的资料,想问问各位大佬有…显示全部 ​关注者30被浏览130,340关注问题​写回答​邀请回答​好问题 7​1 条评论​分享​5 个回答默认排序内推君​腾讯科技有限公司 高级工程师​ 关注面试准备手册-数据平台 原文地址: https://bytedance.feishu.cn/docs/doccn6x6k4r5Tj9nHQ46nhqevVe# 字节跳动内推【长期有效】【100%回复】【超全详解】公司介绍 字节跳动(中国)旗下拥有今日头条、抖音、西瓜视频、飞书等产品。今日头条是一个通用信息平台,致力于连接人与信息,促使信息创造价值。抖音是一个帮助用户表达自我、记录美好生活的短视频平台。 部门介绍 1、业务介绍 字节跳动Data-数据平台,为业务(包括抖音、今日头条、教育等)提供一站式大数据解决方案 2、核心优势挑战EB级海量数据下的各种技术问题,为业务提供全生命周期的数据管理服务 打造面向海量数据的下一代Cloud Native 数据引擎,有机会接触业内最大规模的ClickHouse集群(1w+ 服务器),支撑产品线的数据分析需求 业务形态多种多样,参与实现数据中台赋能业务的体系化技术方案 我们的定位不是公司内部中台,还要把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在ToB的道路上,还有非常大的挑战等着你与我们一起去并肩解决3、团队介绍 部门1000+人 base地:北京、上海、深圳、南京、杭州、美国、新加坡 4、业务&技术对外分享 《最快开源 OLAP 引擎!ClickHouse 在头条的技术演进https://www.infoq.cn/article/NTwo*yR2ujwLMP8WCXOE 《字节跳动在Spark SQL上的核心优化实践》https://www.infoq.cn/article/xEwaUj8RN74lvbRpTBa5 《你所做的A/B实验,可能是错的》https://mp.weixin.qq.com/s/m6Uf9eSIi4kTvB_yivYaGw 《数据漫游者:一站式增长引擎》https://mp.weixin.qq.com/s/qNUBMJ3TpN-Ufy1OtFmbzg 《从0到1,企业应如何搭建指标体系》https://mp.weixin.qq.com/s/mSWgKOv_FyGPUJ2COT4Hvw 《数据漫游者亮相GMIC,探讨当下精准增长新趋势》https://mp.weixin.qq.com/s/Gpf-cQVnRAYo7ly6O-lFBQ 《字节跳动基于Flink的MQ-Hive实时数据集成》https://mp.weixin.qq.com/s/U04x9bzgWhjxQTXFgp-_GQ 面试相关 面试流程介绍 时长:3~4轮,每轮45~60分钟,包括技术面与HR面 技术面流程(参考) 双方自我介绍 项目经历 & 专业知识考察 编码考察 候选人Q&A 面试准备指南1、哪些特质对结果有重大影响 沟通积极顺畅 —— 关键词:高效、主动性 思路清晰,有条理 友善合作,有亲和力 举一反三,沟通不费力 对目标岗位的兴趣与倾向性 过往成果显著 —— 关键词:结果 取得过傲人业绩 项目经验与目标岗位高度match,能输出价值 专业知识强悍 —— 关键词:能力 编码多快好省,永远是面试必杀技 领域深度 & 技术视野,T型人才谁不爱 2、如何准备项目经历 如何做到高效有条理的描述: ①STAR原则 Situation:背景来龙去脉 Target:目标如何拆解 Action:采取哪些行动 Result:结果与反思 ②对项目的业务逻辑和技术架构有充分准备发布于 2022-03-14 12:39​赞同 9​​添加评论​分享​收藏​喜欢收起​朱柒到灯塔去​ 关注核心部门脉脉上属于口碑Tier1的那档发布于 2020-02-15 16:51​赞同 3​​4 条评论​分享​收藏​喜欢

数智平台VeDI-火山引擎

数智平台VeDI-火山引擎

You need to enable JavaScript to run this app.

We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.最新活动产品解决方案定价生态与合作支持与服务开发者了解我们文档备案控制台登录立即注册火山引擎数智平台VeDI新一代企业级数据智能平台,基于字节跳动多年的“数据驱动”实践经验,汇集端到端的数智产品、场景化的行业解决方案和专业的企业数智化转型咨询。全链路端到端的全链路技术全系列PaaS到SaaS一站式产品全场景多行业细分场景方案立即咨询数据飞轮消费行业数据飞轮专场沙龙免费试用增长分析30天免费试用VeDI数据智能图谱企业数据全生命周期的管理应用最新活动3分钟完成汽车数智营销能力评测免费评测数据飞轮消费行业数据飞轮专场沙龙立即查看免费试用增长分析30天免费试用立即查看VeDI数据智能图谱免费领取企业数据全生命周期的管理应用立即查看数据飞轮:用活数据提升企业活力企业数智化升级新范式,以数据消费为核心驱动力,通过数据消费助力业务发展,促进资产建设。立即了解数智平台产品家族10款大数据产品,多种部署方式,安全可靠A/B测试 DataTester科学的评估体系|完备的特型实验增长营销平台 GMP全渠道触点|自动化营销|智能推荐增长分析 DataFinder数据采集|行为分析|埋点治理客户数据平台 VeCDP客户全景视图|用户标签管理智能数据洞察 DataWind数据分析与协作|数据可视化大数据研发治理套件 DataLeap一站式数据研发|数据资产管理|分布式数据治理E-MapReduce开源兼容&优化|云原生运维体系湖仓一体分析服务 LAS全托管服务|湖仓&批流一体ByteHouse云原生数据仓库|高性能实时分析全域数据集成 DataSail实时数据采集|异构数据源同步全景数据应用数据管理数据引擎数据集成数据全链路产品服务高性能大数据产品服务,全面应对数据难题全域数据集成数据存储计算数据分析加速数据研发治理数据分析洞察行为数据分析多源数据整合全域数据集成数据种类、存储格式日趋增多,数据采集和同步门槛高,运维难?DataSail20+ 种异构数据源稳定同步流式和离线数据一站式入仓(湖)高可用,内部超大规模数据验证高吞吐,支持万亿级别数据的采集立即体验数据存储计算数据种类、存储格式日趋增多,用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。湖仓一体分析服务E-MapReduceServerless 全托管,开箱即用湖仓一体,元数据管理批流一体,极致引擎内核立即体验开源兼容,深度优化弹性伸缩,存算分离云原生运维管理体系立即体验数据分析加速数据随业务发挥而快速膨胀,现有数据技术滞后,无法支撑海量数据实时分析,从而制约了业务的增长。ByteHouse千亿级数据秒级返回存算分离、灵活弹性兼顾宽表和关联查询立即体验数据研发治理数字化转型及中台建设面临数据孤立、协同研发交付周期长、产出不及时、资产管理难、数据安全无保障等困境。大数据研发治理套件 DataLeap全链路数据研发分布式数据治理立即体验数据分析洞察业务需求频繁变化难以应对;数据量过大性能和实效性无法保证;用户被动接收数据,数据赋能无法落地。智能数据洞察 DataWind可视化拖拽交互式分析千亿级数据秒级响应办公集成在线协同立即体验行为数据分析您的用户数据分散在各个不同的客户端,没有有效工具实现统一快速采集并打通,怎么办?增长分析 DataFinder数据统一采集和管理数据指标场景化模板灵活的多维下钻分析立即体验多源数据整合用户触点日趋增多,多渠道用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。客户数据平台 VeCDP20+ 种跨源数据连接方式可视化数据清洗及AI建模ID-Mapping识别同一用户立即体验全域数据集成数据种类、存储格式日趋增多,数据采集和同步门槛高,运维难?相关产品:DataSail数据存储计算数据种类、存储格式日趋增多,用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。相关产品:湖仓一体分析服务E-MapReduce数据分析加速数据随业务发挥而快速膨胀,现有数据技术滞后,无法支撑海量数据实时分析,从而制约了业务的增长。相关产品:ByteHouse数据研发治理数字化转型及中台建设面临数据孤立、协同研发交付周期长、产出不及时、资产管理难、数据安全无保障等困境。相关产品:大数据研发治理套件 DataLeap数据分析洞察业务需求频繁变化难以应对;数据量过大性能和实效性无法保证;用户被动接收数据,数据赋能无法落地。相关产品:智能数据洞察 DataWind行为数据分析您的用户数据分散在各个不同的客户端,没有有效工具实现统一快速采集并打通,怎么办?相关产品:增长分析 DataFinder多源数据整合用户触点日趋增多,多渠道用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。相关产品:客户数据平台 VeCDP全域数据集成数据种类、存储格式日趋增多,数据采集和同步门槛高,运维难?相关产品:DataSail数据存储计算数据种类、存储格式日趋增多,用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。相关产品:湖仓一体分析服务E-MapReduce数据分析加速数据随业务发挥而快速膨胀,现有数据技术滞后,无法支撑海量数据实时分析,从而制约了业务的增长。相关产品:ByteHouse数据研发治理数字化转型及中台建设面临数据孤立、协同研发交付周期长、产出不及时、资产管理难、数据安全无保障等困境。相关产品:大数据研发治理套件 DataLeap数据分析洞察业务需求频繁变化难以应对;数据量过大性能和实效性无法保证;用户被动接收数据,数据赋能无法落地。相关产品:智能数据洞察 DataWind行为数据分析您的用户数据分散在各个不同的客户端,没有有效工具实现统一快速采集并打通,怎么办?相关产品:增长分析 DataFinder多源数据整合用户触点日趋增多,多渠道用户数据无法统一管理,且企业各部门之间的数据割裂,数据孤岛问题严重。相关产品:客户数据平台 VeCDP应用场景&解决方案丰富的应用场景和解决方案,满足多种业务需求业务数据分析产品迭代流失用户挽回私域用户运营数据指挥中心数据中台建设大数据搬站智能湖仓一体智能算法推荐智能数据洞察日报/周报/月报定时推送,异常数据即时预警,让数据追人;异常波动一键点击即可获得维度拆解,让数据指导业务。配置:智能数据洞察SaaS 标准版智能数据洞察SaaS 专业版价格:商务报价优惠咨询A/B测试产品功能迭代和运营策略如何选择?A/B实验科学验证,帮您找出更好选择,助力业务增长。配置:A/B测试 每月5万 MTU量价格:¥12,825/3个月优惠咨询客户数据平台+增长营销平台构建流失预测模型、洞察流失人群,制定个性化运营策略,最大化延长用户生命周期。配置:客户数据平台标准版增长营销平台标准版价格:¥200,000/年 起优惠咨询增长分析+客户数据平台+增长营销平台制定分层运营策略,通过多种渠道自动、持续触达用户,通过数据分析优化策略,全面提升用户转化。配置:增长分析SaaS 标准版客户数据平台SaaS 标准版增长营销平台SaaS 标准版价格:¥60,000/年 起优惠咨询智能数据洞察低门槛、低成本构建 2D/3D 酷炫一站式数据指挥中心。配置:智能数据洞察SaaS 专业版价格:商务报价优惠咨询大数据研发治理套件+湖仓一体分析服务在数字化转型过程中,企业希望搭建功能完备的数据中台,面向业务提供服务能力,包括汇聚全企业数据,提升数据研发效率,明确数据资产,保证数据质量和数据安全等。配置:DataLeap公有云大数据分析版湖仓一体分析服务公有云版价格:¥4,000/月 起优惠咨询云原生开源大数据平台企业将自建开源大数据平台迁移上云,充分利用云上生态产品能力,并紧密跟随开源生态最新稳定版本,同时满足未来高速业务发展和长期技术演进的需求。配置:E-MapReduce 公有云按量付费价格:¥0.02/核/小时 起优惠咨询湖仓一体分析服务跨源关联各类数据(结构、非结构、文件等),统一管理元数据,支持海量数据的智能入仓、实时分析,轻松构建企业智能实时湖仓。配置:湖仓一体分析服务公有云版价格:¥15,360/月 起优惠咨询增长营销平台具备营销对象圈选、营销时机预估、内容/商品匹配预测、权益意向度预测、商品推荐等多个营销环节的算法建模能力,实现高价值营销人群圈选、新客拉新/留存/转化、流失用户预测与召回等用户全生命周期建模,直接提升业务核心指标。配置:增长营销平台SaaS版 每月10万DAU价格:¥70,000/年优惠咨询业务数据分析日报/周报/月报定时推送,异常数据即时预警,让数据追人;异常波动一键点击即可获得维度拆解,让数据指导业务。优惠咨询相关产品:智能数据洞察SaaS 标准版智能数据洞察SaaS 专业版产品迭代产品功能迭代和运营策略如何选择?A/B实验科学验证,帮您找出更好选择,助力业务增长。优惠咨询相关产品:A/B测试 每月5万 MTU量流失用户挽回构建流失预测模型、洞察流失人群,制定个性化运营策略,最大化延长用户生命周期。优惠咨询相关产品:客户数据平台标准版增长营销平台标准版私域用户运营制定分层运营策略,通过多种渠道自动、持续触达用户,通过数据分析优化策略,全面提升用户转化。优惠咨询相关产品:增长分析SaaS 标准版客户数据平台SaaS 标准版增长营销平台SaaS 标准版数据指挥中心低门槛、低成本构建 2D/3D 酷炫一站式数据指挥中心。优惠咨询相关产品:智能数据洞察SaaS 专业版数据中台建设在数字化转型过程中,企业希望搭建功能完备的数据中台,面向业务提供服务能力,包括汇聚全企业数据,提升数据研发效率,明确数据资产,保证数据质量和数据安全等。优惠咨询相关产品:DataLeap公有云大数据分析版湖仓一体分析服务公有云版大数据搬站企业将自建开源大数据平台迁移上云,充分利用云上生态产品能力,并紧密跟随开源生态最新稳定版本,同时满足未来高速业务发展和长期技术演进的需求。优惠咨询相关产品:E-MapReduce 公有云按量付费智能湖仓一体跨源关联各类数据(结构、非结构、文件等),统一管理元数据,支持海量数据的智能入仓、实时分析,轻松构建企业智能实时湖仓。优惠咨询相关产品:湖仓一体分析服务公有云版智能算法推荐具备营销对象圈选、营销时机预估、内容/商品匹配预测、权益意向度预测、商品推荐等多个营销环节的算法建模能力,实现高价值营销人群圈选、新客拉新/留存/转化、流失用户预测与召回等用户全生命周期建模,直接提升业务核心指标。优惠咨询相关产品:增长营销平台SaaS版 每月10万DAU业务数据分析智能数据洞察日报/周报/月报定时推送,异常数据即时预警,让数据追人;异常波动一键点击即可获得维度拆解,让数据指导业务。智能数据洞察SaaS 标准版智能数据洞察SaaS 专业版价格:商务报价优惠咨询产品迭代A/B测试产品功能迭代和运营策略如何选择?A/B实验科学验证,帮您找出更好选择,助力业务增长。A/B测试 每月5万 MTU量价格:¥12,825/3个月优惠咨询流失用户挽回客户数据平台+增长营销平台构建流失预测模型、洞察流失人群,制定个性化运营策略,最大化延长用户生命周期。客户数据平台标准版增长营销平台标准版价格:¥200,000/年 起优惠咨询私域用户运营增长分析+客户数据平台+增长营销平台制定分层运营策略,通过多种渠道自动、持续触达用户,通过数据分析优化策略,全面提升用户转化。增长分析SaaS 标准版客户数据平台SaaS 标准版增长营销平台SaaS 标准版价格:¥60,000/年 起优惠咨询数据指挥中心智能数据洞察低门槛、低成本构建 2D/3D 酷炫一站式数据指挥中心。智能数据洞察SaaS 专业版价格:商务报价优惠咨询数据中台建设大数据研发治理套件+湖仓一体分析服务在数字化转型过程中,企业希望搭建功能完备的数据中台,面向业务提供服务能力,包括汇聚全企业数据,提升数据研发效率,明确数据资产,保证数据质量和数据安全等。DataLeap公有云大数据分析版湖仓一体分析服务公有云版价格:¥4,000/月 起优惠咨询大数据搬站云原生开源大数据平台企业将自建开源大数据平台迁移上云,充分利用云上生态产品能力,并紧密跟随开源生态最新稳定版本,同时满足未来高速业务发展和长期技术演进的需求。E-MapReduce 公有云按量付费价格:¥0.02/核/小时 起优惠咨询智能湖仓一体湖仓一体分析服务跨源关联各类数据(结构、非结构、文件等),统一管理元数据,支持海量数据的智能入仓、实时分析,轻松构建企业智能实时湖仓。湖仓一体分析服务公有云版价格:¥15,360/月 起优惠咨询智能算法推荐增长营销平台具备营销对象圈选、营销时机预估、内容/商品匹配预测、权益意向度预测、商品推荐等多个营销环节的算法建模能力,实现高价值营销人群圈选、新客拉新/留存/转化、流失用户预测与召回等用户全生命周期建模,直接提升业务核心指标。增长营销平台SaaS版 每月10万DAU价格:¥70,000/年优惠咨询产品试用专区差异化版本满足不同企业需求差异化版本满足不同企业需求增长分析 DataFinder一站式用户分析与运营平台,为企业提供数字化消费者行为分析洞见,提升企业效益。A/B测试 DataTester智能数据洞察 DataWind个人可用DataFinder-30天限免版为企业提供数字化消费者行为分析洞见2百万事件量低门槛深度体验产品能力功能完备,开箱即用支持多样化业务分析场景¥0元省20000元/年免费试用个人可用Datatester-30天限免版丰富实验功能,帮助企业科学决策1亿事件量科学的实验设计和统计评估丰富的实验类型,灵活的分流机制智能优化:低成本获取更大收益¥0元省3563元/30天免费试用个人可用DataWind-30天限免版开箱即用,构建企业数据数据产品专业版多源数据整合,亿级数据秒级查询场景化分析智能归因、监控报警二维三维组件搭建酷炫大屏¥0元省8200元/30天免费试用个人可用DataFinder-30天限免版为企业提供数字化消费者行为分析洞见2百万事件量低门槛深度体验产品能力功能完备,开箱即用支持多样化业务分析场景¥0元省20000元/年免费试用个人可用Datatester-30天限免版丰富实验功能,帮助企业科学决策1亿事件量科学的实验设计和统计评估丰富的实验类型,灵活的分流机制智能优化:低成本获取更大收益¥0元省3563元/30天免费试用个人可用DataWind-30天限免版开箱即用,构建企业数据数据产品专业版多源数据整合,亿级数据秒级查询场景化分析智能归因、监控报警二维三维组件搭建酷炫大屏¥0元省8200元/30天免费试用产品动态2023/9-2023/10数据中台产品双月刊 VOL.08数据中台产品双月产品动态一览;全面解读数智化转型背景下的火山引擎数据飞轮模式在数据资产建设上的技术与实践。2023/9/192023火山引擎数据驱动科技峰会在上海举办的“数据飞轮·2023火山引擎V-Tech数据驱动科技峰会”上,火山引擎提出了数据驱动的新范式——数据飞轮。2023/7-2023/9增长营销产品季刊 VOL.07增长营销产品季度动态一览;AI加持后的火山引擎数据飞轮,能为企业带来哪些新变化?2023/7-2023/8数据中台产品双月刊 VOL.07数据中台产品双月产品动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。2023/4-2023/6增长营销产品季刊 VOL.06增长营销产品季度动态一览;从飞书妙记秒开率提升,看火山引擎A/B测试在研发场景的应用。2023/5-2023/6数据中台产品双月刊 VOL.06数据中台产品双月动态一览;火山引擎 DataLeap 联合 DataFun 发布《数据治理知识地图》!2023/1-2023/3增长营销产品季刊 VOL.05增长营销产品季度动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。2023/3-2023/4数据中台产品双月刊 VOL.05数据中台产品双月产品动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。2022/11-2022/12增长营销产品双月刊 VOL.04增长营销产品动态一览;第七期火山引擎数智平台VeDI 「增长课堂」直播活动成功举办。2022/11-2022/12增长营销产品双月刊 VOL.04增长营销产品动态一览;第七期火山引擎数智平台VeDI 「增长课堂」直播活动成功举办。2023/1-2023/2数据中台产品双月刊 VOL.04数据中台产品双月产品动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。2022/9-2022/10增长营销产品双月 VOL.03增长营销产品动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。2023/9-2023/10数据中台产品双月刊 VOL.08数据中台产品双月产品动态一览;全面解读数智化转型背景下的火山引擎数据飞轮模式在数据资产建设上的技术与实践。2023/9/192023火山引擎数据驱动科技峰会在上海举办的“数据飞轮·2023火山引擎V-Tech数据驱动科技峰会”上,火山引擎提出了数据驱动的新范式——数据飞轮。2023/7-2023/9增长营销产品季刊 VOL.07增长营销产品季度动态一览;AI加持后的火山引擎数据飞轮,能为企业带来哪些新变化?2023/7-2023/8数据中台产品双月刊 VOL.07数据中台产品双月产品动态一览,包含产品功能迭代、重点功能介绍、最新活动、技术干货文章等多个有趣、有料的模块内容。为海量企业提供大数据产品与服务众多优秀客户的共同选择一键开启云上增长新空间专业的解决方案、领先的产品帮您实现业务的爆发式增长立即咨询一键启动火山引擎之旅联系我们

首次揭秘,字节跳动数据平台为什么不选“纯中台制”_文化 & 方法_Lucien_InfoQ精选文章

首次揭秘,字节跳动数据平台为什么不选“纯中台制”_文化 & 方法_Lucien_InfoQ精选文章

深度解析字节跳动开源数据集成引擎 BitSail - 知乎

深度解析字节跳动开源数据集成引擎 BitSail - 知乎首发于大数据应用案例切换模式写文章登录/注册深度解析字节跳动开源数据集成引擎 BitSailDataFunTalk​已认证账号分享嘉宾|李畅 字节跳动 数据平台数据集成工程师编辑整理|钟晓华 DataFun志愿者1. 导读BitSail 是字节跳动开源数据集成引擎,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案,目前支撑了字节内部和火山引擎多个客户的数据集成需求。经过字节跳动各大业务线海量数据的考验,在性能、稳定性上得到较好验证。10 月 26 日,字节跳动宣布 BitSail 项目正式在 GitHub 开源,为更多的企业和开发者带来便利,降低数据建设的成本,让数据高效地创造价值。本篇内容将围绕 BitSail 演讲历程及重点能力解析展开,主要包括以下四个部分:字节跳动内部数据集成背景BitSail 技术演进历程BitSail 能力解析未来展望2. 字节跳动内部数据集成背景一直以来,字节跳动都非常重视并贯彻“数据驱动”这一理念,作为数据驱动的一环,数据中台能力的建设至关重要,而这其中,数据集成作为数据中台建设的基础,主要解决了异构数据源的数据传输、加工和处理的问题。BitSail 源自字节跳动数据平台团队自研的数据集成引擎 DTS(全称 Data Transmission Service,即数据传输服务),最初基于 Apache Flink 实现,至今已经服务于字节内部业务接近五年,现已具备批式集成、流式集成和增量集成三类同步模式,并支持分布式水平扩展和流批一体架构,在各种数据量和各种场景下,一个框架即可解决数据集成需求。此外,BitSail 采用插件式架构,支持运行时解耦,从而具备极强的灵活性,企业可以很方便地接入新的数据源。3. BitSail 演进历程3.1 全域数据集成引擎演进三阶段字节跳动数据集成引擎 BitSail 演进的历程可以分为三个阶段:① 初始期:2018 年以前公司没有统一的数据集成框架,对每个通道都是各自实现,因此依赖的大数据引擎也比较零散,如 MapReduce 、Spark ,数据源之间的连接也是网状连接,整体的开发和运维成本都比较高。② 成长期:可以分为三个小阶段。2018 - 2019 :随着 Flink 生态不断完善,越来越多的公司将 Flink 作为大数据计算引擎的首选,字节跳动也不例外,并在 Flink 上持续探索,并于 2019 年提出基于 Flink 的异构数据源间传输,完成批式场景的统一。2020 - 2021 :随着 Flink 批流一体的完善,字节跳动对原有架构进行较大升级,并覆盖了流式场景,完成批流场景的统一。2021 - 2022 :接入了 Hudi 数据湖引擎,解决 CDC 数据实时同步问题,并提供湖仓一体解决方案。③ 成熟期:2022 年开始全域数据集成引擎的整体架构已经稳定,并经过字节跳动内部各业务线生产环境的考验,在性能和稳定性上也得到充分的保障,于是团队希望能够将能力对外输出,为更多的企业和开发者带来便利,降低数据建设的成本,让数据高效地创造价值。3.2 BitSail 数据集成引擎技术架构演进3.2.1 基于 Flink 的异构数据源传输架构基于 Flink 1.5 DataSet API 实现的异构数据源传输架构,只支持批式场景。框架核心思想是,对原始输入层数据抽象为 BaseInput,主要用于拉取源端的数据;对输出层抽象为 BaseOutput,负责将数据写到外部系统。同时,框架层提供了基础服务,包括类型系统(Type System)、自动并发度(Auto Parallelism)、流控(Flow Control)、脏数据检测(Dirty Data)等等,并对所有的数据源通道生效。以下介绍一个批次场景上比较有意思的功能,也是实际业务中面临的一些痛点。上图左上部分是原始的 Flink 运行日志,从这个日志里看不到任务进度数据和预测数据,如当前任务运行的百分比、运行完成所需时间。左下部分则是 Flink UI 界面提供的任务运行的元信息,可以看到读写条数都是 0 ,从 Flink 引擎角度,由于所有算子作为一个整体是没有输入和输出的,这是合理的,但从用户角度就无法看到任务整体进度信息和当前处理记录条数,从而导致用户怀疑这个任务是否已经卡住。图中右边是改造之后的效果,日志中明确输出当前处理了多少条数、实时进度展示、消耗时间等等,该功能在字节内部上线后,得到了很多业务的好评。下面介绍一下具体的实现。首先回顾 Flink Task 的执行过程,与传统的 MapReduce、Spark 的驱动模型不一样,Flink 是以任务驱动,JM 创建好 Split 之后,Task 是常驻运行,不断向 JM 请求新的 Split,只有所有的 Split 处理完之后,Task 才会退出。此时,如果用总的完成的 Task 个数除以总的 Task 个数,进度将出现一定程度的失真。最开始,所有的 Task 都在运行,不断地去拉取 Split,我们看到的进度会是 0,等到 JM 的 Split 处理完之后,所有的 Task 会集中退出,可以看到进度会突然跳动到 100%,中间是缺少进度信息的。为了解决这个问题,我们还是要回到数据驱动本身,以 Split 的维度来衡量整个 Job 的运行过程。图中右边所展示的是,通过 Flink UI 提供的 API,可以拿到整个任务的拓扑信息,将其分为两层算子并进行改造,分别是 Source 层和 Operator 层。Source 层我们修改了原生的 Source API,具体的话包括两个部分,第一个是创建 Split 之后,我们会去拿到 Total Split 的个数,将它上载到 Metric 里;其次是 Source里的每个 Task 每处理完一个 Split 之后,我们会上报一个 CompletedSplit。最终我们通过 Flink UI 是可以拿到当前已经完成的 Split 个数以及总共的 Split 个数,并用完成的 Split 个数来除以总共的 Split 个数来衡量 Source 节点的进度。Operator 层首先我们会看当前 Operator 上游节点的输出多少条,以及当前节点它读取了多少条,并用当前节点读取的条数除以它的上游节点的输出条数作为当前 Operator 的进度。同时,这里我们做了一个梯度限制,就是当前节点的进度只能小于等于它的上游节点进度。3.2.2 基于 Flink 批流一体的架构以下是批流一体的架构,相对于原有架构,字节跳动数据平台团队完成如下升级:将 Flink 版本从 1.5 升级到 1.9,同时我们分析了 DataSet API,统一升级到 DataStream API,以支持批流一体架构。对数据源支持进行扩充,除了原有的离线数据源之外,增加了实时数据源,如消息队列。对框架层完成拓展,支持 Exactly Once、支持 Event Time 写入、Auto DDL 等功能。对引擎层进行改进,增加推测执行、Region Failover 等功能。在 Runtime 层也做了进一步的扩充,支持云原生架构。我们分析一个实时场景中比较典型的链路,MQ 到 Hive 这个链路。左图(Shuffle)是目前社区的实现方式,很多数据湖的写入,比如 Hudi、Iceberg 基本上也是这个结构。这套结构分为两层算子,第一层是我们的数据处理层,负责数据的读取和写入;第二层算子是一个单节点的提交层,它是一个单并发,主要负责元信息的提交,比如去生成 Hive 的分区或者做一些其他的元信息动作。这个架构的优势是其整体拓扑(数据处理流程)比较清晰,算子功能定位也比较清楚,但是它有一个明显的缺陷,加入一个单并发节点后,导致整个任务变成 Shuffle 连接。而 Shuffle 连接天然的弱势是,当遇到 Task Failover 的时候,它会直接进行全局重启。右图(Pipelined)是改造之后的数据处理流程,数据写入部分没有变化,变化的是后面的提交部分,这样的设计考虑是是保持原有 Pipeline 架构,以实现 Task 容错时不会进行全局重启。废弃了原有的单并发提交节点,把所有元信息的提交拿到 JM 端处理,同时 Task 和 JM 的通讯是通过 Aggregate Manager 来实现。改为这套架构之后,在大数据量场景下,其稳定性得到了显著的提升。3.2.3 基于 Flink 湖仓一体的架构引入湖仓一体架构的目的是解决 CDC 数据的近实时同步。右图是原有架构,处理流程包括三个模块:拉取批次任务:用来拉取 CDC 全量的数据,写到 Hive 里作为一个基础的镜像。实时任务:拉取 CDC 的 Changelog,并实时写入 HDFS,作为一个增量数据。离线调度任务:周期性地进行 Merge,将全量数据和增量数据进行合并,形成新的全量数据。上述架构比较复杂,并依赖 Flink、Spark 等多种计算引擎,在实时性方面,只能做到 T+1,最快也只能做到小时级延迟,无法有效支撑近实时分析场景。从效率来说,存储开销比较大,每个分区都是一个全量镜像,而且计算成本较高,每次 Merge 都需要进行全局 Shuffle。右图是升级后的架构,主要的升级点包括:将 Flink 1.9 升级到 Flink 1.11,接入了 Hudi 数据湖引擎,以支持 CDC 数据近实时同步。这是因为 Hudi 引擎有完备的索引机制以及高效的 Upsert 性能。对 Hudi 引擎也进行了多项基础改进,以提高整体的写入效率和稳定性。最终实施的效果,近实时写入,整体的延迟在 10 分钟以内,综合性能比原有架构提升 70% 以上。至此,完成了全域数据集成架构统一,实现一套系统覆盖所有同步场景。3.3 架构演进过程实践经验分享下面介绍实际演进过程中的一些思考、问题和改进方案。表类型选择数据湖是支持多种表格式的,比如 CopyOnWrite(简称COW)表、MergeOnRead(简称MOR)表。COW 表的优势在于读性能比较好,但是会导致写放大,MOR 表正好相反,写的性能比较好的,会导致读放大。具体选择哪种表格式,更多要根据大家的业务场景来决定。我们的业务场景是为了解决 CDC 数据的近实时同步,CDC 数据有个明显的特点,是存在大量的随机更新。这个场景下选择 COW,会导致写放大的问题比较严重,所以我们选择了 MOR 表。上图就是一个 MOR 表查询和写入的流程。第一个是列存储的基础镜像文件,我们称之为 Base 文件,第二个是行存储的增量日志,我们称之为 Log 文件。每次查询时,需要将 Log 文件和 Base 文件合并,为了解决 MOR 表读放大的问题,通常我们会建一个 Compaction 的服务,通过周期性的调度,将 Log 文件和 Base 文件合并,生成一个新的 Base 文件。Hudi 实时写入痛点如图所示,这是原生的 Hudi 实时写入的流程图。首先,我们接入 Hudi 数据,会进入 Flink State,它的作用是索引。Hudi 提供了很多索引机制,比如 BloomIndex。但是 BloomIndex 有个缺陷,它会出现假阳性,降级去遍历整个文件,在效率上有一定的影响。Flink State 的优势是支持增量更新,同时它读取的性能会比较高。经过 Flink State 之后,我们就可以确认这条记录是 Upsert,还是 Insert 记录,同时会分配一个 File Id。紧接着,我们通过这个 File Id 会做一层 KeyBy,将相同 File 的数据分配到同一个Task。Task 会为每一个 File Id 在本地做一次缓存,当缓存达到上限后,会将这批数据 Flush 出去到 hoodie client 端。Hoodie client 主要是负责以块的方式来写增量的 Log 数据,以 Mini Batch 的方式将数据刷新到 HDFS。再之后,我们会接一个单并发的提交节点,最新的版本是基于 Coordinator 来做的,当所有的算子 Checkpoint 完成之后,会提交元信息做一次 Commit,认为这次写入成功。同时 Checkpoint 时,我们会刷新 Task 的缓存和 hoodie client 的缓存,同时写到 HDFS。通常,我们还会接一个 Compaction 的算子,主要用来解决 MOR 表读放大的问题。这个架构在实际的生产环境会遇到如下问题:(1)当数据量比较大的时候,Flink State 的膨胀会比较厉害,相应地会影响 Task 的速度以及 Checkpoint 的成功率。(2)关于 Compaction 算子,Flink 的流式任务资源是常驻的,Compaction 本身是一个周期性的调度,如果并发度设置比较高,往往就意味着资源的浪费比较多。(3)Flink 提供了很多资源优化的策略,比如 Slot Sharing,来提高整体的资源利用率,这就会导致资源抢占的问题,Compaction 会和真正的数据读写算子来进行资源的抢占。Compaction 本身也是一个重 I/O、CPU 密集型操作,需要不断地读取增量日志、全量日志,同时再输出一个全量数据。针对上述问题,我们优化了 Hudi 的写入流程。首先我们会采集 CDC 的 Change Log,并发送到消息队列,然后消费消息队列中的 Change Log,然后我们进行如下三个优化:(1)废弃了原先的 Flink State,替换为 Hash Index。Hash Index 的优势是不依赖外部存储。来了一个 Hoodie Record 之后,只需要一个简单的哈希处理,就知道它对应的 Bucket。(2)将 Compaction 服务独立成一个离线的任务,并且是周期性的调度,用来解决资源浪费和资源抢占的问题。(3)将 Task 缓存和 Hudi 缓存做了合并,因为每次 Checkpoint 都需要刷新 Task 缓存,Hudi 缓存需要写入 HDFS,如果缓存的数据量比较多,会导致整个 Checkpoint 时间比较长。优化之后,稳定性方面,可以支持百万级的 QPS;端到端的 Checkpoint 延时控制在 1 分钟以内,Checkpoint 成功率可以做到 99%。4. BitSail 能力解析目前技术架构比较成熟,并经过字节跳动各业务线的验证,在数据的稳定性和效率上都能得到一定的保障。因此,我们希望能把自己沉淀的经验对外输出,给更多企业和开发者带来便利,降低大家数据建设的成本,让数据创造高效的价值。为了达到这个目标,我们要解决两个能力的构建。4.1 低成本共建能力数据集成有一个明显的网络效应,每个用户所面临的数据集成的场景也是不一样的,因此需要大家的共同参与,完善数据集成的功能和生态,这就需要解决共建成本的问题,让大家都能低成本地参与整个项目的共建和迭代。在 BitSail 中,我们通过两个思路推进这个能力建设。4.1.1 模块拆分所有的模块糅合在一个大的 jar 包中,包括引擎层、数据源层、基础框架层,模块耦合比较严重,数据处理流程也不清晰。针对这个问题,我们按照功能模块进行划分,将基础框架和数据源从引擎中独立出来,同时我们的技术组件采取可插拔的设计,以应对不同的用户环境,比如脏数据检测、Schema 同步、监控等等,在不同的环境中会有不同的实现方式。4.1.2 接口抽象框架对 Flink API 是深度绑定,用户需要深入到 Flink 引擎内部,这会导致整体 Connector 接入成本比较高。为了解决这个问题,我们抽象了新的读写接口,该接口与引擎无关,用户只要开发新的接口即可。同时在内部会做一层新的抽象接口与引擎接口的转换,这个转换对用户是屏蔽的,用户不需要了解底层引擎细节。4.2 架构的兼容能力不同公司依赖的大数据组件和数据源的版本不一样,同时还会遇到版本前后不兼容问题,因此需要完善架构的兼容能力,以解决不同环境下的快速安装、部署和验证。我们同样有两个思路来建设这个能力。4.2.1 多引擎架构当前架构和 Flink 引擎深度绑定,在使用场景方面受到一定的限制,比如有些客户用了 Spark 引擎或者其他引擎。Flink 引擎依赖比较重的情况下,对于简单场景和小数据量场景,整体的资源浪费比较严重。为解决此问题,我们在引擎层预留了多引擎入口,在已经预留的 Flink 引擎基础之上,接下来会扩展到 Spark 引擎或者 Local Engine。 具体实现方面,我们对执行的环境进行了一层抽象,不同的引擎会去实现我们的抽象类。同时,我们探索 Local 执行方式,对小数据量在本地通过线程的方式来解决,不用去启动 Flink Job 或类似的处理,提高整体资源的使用效率。4.2.2 依赖隔离目前系统存在一些外部环境中没有的内部依赖,大数据底座也是绑定的公司内部版本,我们进行了三个方面的优化:剔除公司内部依赖,采取开源的通用解决方案,以应对不同的业务场景。大数据底座方面,采用 Provided 依赖,不绑定固定底座,运行时由外部指定,针对不兼容的场景,通过 Maven Profile 和 Maven Shade 隔离。针对数据源多版本和版本不兼容的问题,采取动态加载的策略,将数据源做成独立的组件,每次只会加载需要的数据源,以达到隔离的目标。5. 未来展望BitSail 希望数据畅通无阻地航行到有价值的地方,期待和大家共同合作,完善数据集成的功能和生态。同时未来我们将在三个方面继续深化:① 多引擎架构:探索 Local Engine 落地,支持本地执行,对简单场景和小数据量场景提高资源利用率;实现引擎智能选择策略,针对简单场景使用 Local Engine;针对复杂场景复用大数据引擎的能力。② 通用能力建设:推广新接口,对用户屏蔽引擎细节,降低 Connector 开发成本探索 Connector 多语言方案。③ 流式数据湖:统一 CDC 数据入湖解决方案,在性能上稳定支撑千万级 QPS在数据湖平台能力构建方面,全面覆盖批式、流式、增量使用场景。今天的分享就到这里,谢谢大家。分享嘉宾李畅|字节跳动 数据平台数据集成工程师2016年研究生毕业后,加入字节跳动数据平台,一直从事大数据平台开发相关工作,从0到1打造字节跳动数据集成产品,支持多种异构数据源间的海量数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案,目前支撑了字节内部和火山多个客户的数据集成需求。DataFun新媒体矩阵关于DataFun专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。编辑于 2022-11-06 14:27・IP 属地北京字节跳动(ByteDance)数据集大数据​赞同 7​​添加评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录大数据应用案例DataFun独家大数据技术在企业、高校中的

干货 | 字节跳动一站式数据治理解决方案及平台架构 - 文章 - 开发者社区 - 火山引擎

干货 | 字节跳动一站式数据治理解决方案及平台架构 - 文章 - 开发者社区 - 火山引擎

We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.文档备案控制台登录立即注册首页文章问答视频活动下载资源团队号镜像站干货 | 字节跳动一站式数据治理解决方案及平台架构火山引擎数智平台VeDI技术技术

扫码进入官方交流群

群内定期进行干货分享

技术交流、福利放送

字节跳动数据平台

在字节跳动内部,数据平台数据治理团队致力于建立一站式、全链路的数据治理解决方案平台。本文是字节跳动数据平台开发套件团队王慧祥参与的“数智有为第二期”在线分享的部分摘录。

关注字节跳动数据平台微信公众号,回复【PPT】获得本次分享材料。

文 | 王慧祥

来自字节跳动数据平台开发套件团队

“一站式数据治理解决方案及平台架构”的分享会分为四个部分展开:

首先,

明确数据治理的概念,从平台视角出发,介绍在字节跳动内部数据治理所服务的目标;

其次,

介绍字节跳动内部数据治理的现状与我们需要解决的问题;

第三,

介绍当前我们的解决方案;

最后

分享一站式数据治理的平台架构。

数据治理的概念

数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具有高质量的数据质量能力,并且实现对数据的完全管理,以支持业务的目标。

在这里面有些关键词:在一些组织、一些公司内部关注的是数据全生命周期,希望它有一个较高的质量,目标则是用来支持业务。

所以数据治理的目标主要由以下几点构成:

第一,最大化数据价值。

第二,管理数据的风险。

第三,降低数据的成本。

数据治理是一个比较大的概念。它包括政策、规则、组织结构、治理过程,以及一些技术的支持。领域包括数据质量、数据成本、数据可用性以及数据安全等方面。

所以,在影响数据治理计划的驱动因素是多样的,比如说数据法规、隐私政策的限制,数据质量良莠不齐、数据治理成本高,或者是资源受限等等。此外,治理实施的方式和范围也不同,比如:有可能是由统一的组织,诸如数据治理委员会在整个企业或者公司的范围内发起一些治理目标与计划,来推动整个组织的数据治理;也可能是在一些部门、团队内部去进行有限范围内的治理。数据治理计划的目标实现必须得用适当的工具来解决,数据治理的方式也越来越倾向于朝着系统化和工具化的方向来发展。

字节跳动数据治理背景

在字节跳动内部,作为统一的数据治理平台方,我们的目标是:“建立一站式、全链路的数据治理解决方案平台”, 治理平台肩负了四个使命:

第一,让数据价值最大化。

这里面包括全生命周期数据质量的保障,既要做到高价值,又能实现低成本。

第二,提供全链路解决方案。

数据治理在实际过程中会由多个不同角色共同参与,包括了管理者视角和执行者视角。我们希望不同的角色在我们的平台里,都能够运用一些工具、手段来推进治理的执行。

第三,工具和方法论的结合。

字节跳动内部数据治理平台的建设是以方法论来引导建设,希望工具能够提供非常完备的治理能力。

第四,提供增强型的治理能力。

在系统的能力上可以主动发现一些隐患问题,做一些推荐或者建议的策略来提升治理效率。

在字节内部,不同角色对数据治理的视角不同。比如,管理者或者是责任者的视角,他们可能会考虑如何去制定一些治理的目标,如何能够让组织、团队来去完成这些治理的指标;他们可能会关注于这个目标什么时候能够完成、进度如何;他们也会思考,当他们真得去做了这些治理之后,些数据或者资产是否能够持续健康。

而从执行者的视角上,则要考虑有数据治理目标下达之后,我该如何去做;我自己有哪些资产,资产有什么问题;我去做治理的时候,怎么样能够提高治理效率;我能不能及时发现数据资产的问题,并快速治理。

数据治理流程链路

因此在整个数据治理的流程中,遵循如下几个步骤:

第一:我有什么?

比如我的计算任务,资产的存储,质量的一些规则,SLA的承诺或者一些异常报警,哪些是属于我的。

第二,清晰知晓治理目标。

要知道我要去治理什么,从哪些开始下手,哪些资产是有问题的,我的一些规则是否是设置的合理的。

第三,怎么治理。

比如在面临一个具体的治理问题,别人是如何治理的,他们是不是有一些相关的经验可以借鉴;在具体的实施过程里,如何去提效治理。

第四,衡量治理效果。

也就是我们的治理是否达到了一些目标,或者获得了哪些收益。

最后,总结与复盘。

做完了整个治理链路流程之后的总结,如经验总结、问题归纳等等。

数据治理解决方案

基于上述是数据治理流程链路中涉及到的方方面面,在平台侧我们是如何解决每个流程中对应的问题呢?整体从思路上,划分为三个维度:

一站式

在建立一站式解决方案里,我们细分了三层。

第一层:视图层。

这个视图层就是来满足我们能够知道,我们有哪些资产,我们有什么,我们的目标是什么,该怎么制定,这个我们称之为治理全景层。

第二层:方案层。

也就是真正实施去推动这个治理过程的这一层。在这一层里面我们提出了两种治理的路径,一种是主动式的规划路径,另二种是系统发现式的路径。

系统规划式路径:

契合于从上而下的视角来去满足于治理的目标,针对它做一些规划,做了一些规划之后对相应的资产进行诊断。诊断之后诊断出资产的问题来进行相应的一些问题推进执行,最后到一些收益的统计和总结。这是一个主动规划的部分。

系统发现式路径:

系统发现这个路径其实主要解决的是,我怎么能够日常的去将我这些资产或者治理问题,能够持续的进行。日常化治理而不是一个运动式治理方式。这个是基于我们平台里面的一些全局规则来定义,通过系统来去订阅,定期在系统里面去进行运行扫描,发现一些资产的问题,通过一些消息的方式推送到这些资产的责任人,进行一些比如说根因的登记,问题的登记,事故的复盘,最后进行一些总结和经验的共享等等;

第三层:工具能力层。

即为了满足于上面的视图层和方案层,我们在工具侧提供的一些能力,包括一些垂直的治理场景和质量,安全成本,稳定性,报警起夜等等方面。还有一些基础服务来支撑这些我们工具的建设。比如我们会抽出一些消息的中心,云数据的中心,规则引擎或者数据服务等等。

上述是我们一站式的思路。

全链路

全链路是指我们希望治理能够达到一个闭环的状态。

在整个链路里面,可能针对于不同的角色,会有一些不同的使用方式,或者是一些运行方式。在整个的路径里面会有从资产的视图来看我们有哪些东西。在这些资产视图基础之上去定一些目标和规划。比如说有些外部驱动的指标,业务驱动的一些指标或者是一些合规或者是政策类的指标等等,来制定我们治理的目标。

针对这些目标,我们去做一些方案的制定。

举个例子,比如去做一些存储资产的降低,可能通过一些规则来去圈选出来资产有问题的部分。之后推进这个治理的实施,可能在一些治理决策者或者一些团队的负责人方面,他可能会去进行一些拉群的督办,或者是一些定时的订阅提醒等等。在推进治理方案过程中,还希望资产的责任人,也就是治理的实施者在我们这个平台工具里面能够具体去实施治理的动作,如一些基于SLA的申报、参数的优化、存储规则的设置、规则的调优等等。

进行了一系列治理之后,我们肯定要有一个验收的环节,可能会是一个整体指标的验收,业务是否达标了,指标是否合理,最后进行一些经验的总结,这个是全链路的部分。

当然在全链路里面也包括了刚才所说的这种系统式、扫描式的路径。这个也是通过一些规则的制定,在系统里面去发起规则的定义和订阅。通过系统的扫描去发现一些问题,发现问题之后经过一些实施的治理,可能再反哺到我们具体的一些规则的制定上面去。比如说更进一步配置一些监控规则,来预防治理的一些问题。

这个是全链路的部分。

全规则

全规则目标是提供比较完备的治理规则能力,能够服务于刚才所说的这种规划式资产组合与响应式资产扫描。这个是在平台的能力完备性方面的一些考虑。目前我们提供了存储计算、质量报警等四个维度,现在有数十个这种治理的规则可供任意的圈选和组合。其中包括一些全局的规则和自定义的规则。

比如全局规则,比如近7天的产出为空的任务,是否有暴力扫描的任务。或者是一些定义,比如生命周期可以任意选择一个时间段来去进行扫描或者近xxx天任务为空,把这些任务圈选出来,这些是自定义的部分。

同时还有一些统计类和挖掘类。统计类就是基于数据建设对元数据的应用和加工。举个例子,比如近90天无访问表,或者是数据倾斜任务的圈选。挖掘类其实是在元数据的基础上进行一些更深层次的挖掘,去找到一些数据的问题,比如相似的库表,相似的任务等。

一站式数据治理平台架构

上面介绍了我们应对数据治理的解决方案,包括全规则、全链路和一站式。接下来,介绍具体的平台架构。

整体架构

首先在整体的架构部分,这是治理平台内整体的架构图。

其中灰色的部分是在平台透出给用户的产品能力,包括治理全景。

治理全景对应于刚才在一站式的视图层能够告诉用户,有哪些资产,这些资产的情况是怎么样的。然后是治理的工作台。工作台的部分是针对于治理的实施者,他能够快速定位或者跳跃到相关一些治理的方案和平台去进行治理。这个是一些包括待办项和这些资产的分析等等。之后是一些诊断规划的部分。也就是服务于主动式规划这条路径的一个模块。它会对我们这些资产进行一些规则式的组合,来进行一个最终的诊断。还有一些资源的优化,报警与订阅和SLA保障等几个垂直类的治理场景。最后有一个复盘管理部分,是做经验总结和沉淀的一个模块,以系统的方式进行记录。

中间的部分是基于全规则的思想,

将存储规则、计算规则、质量规则和报警规则,呈现在平台里,让用户来进行自由圈选,达到灵活、全面的目的。

下面绿色层是系统组件层面的一些抽象服务,

我们会针对数据治理的典型场景,在底层的基础设计上做一些抽象,达到灵活适新的规则或者治理场景的目的。

元数据建设

在数据治理里面,我们认为元数据其实是治理的核心,治理其实是需要元数据来去驱动的。在我们治理工作里面,元数据建设治理主要有以下五个方面:

第一,元数据的采集。

我们会采集底层组件架构的一些数据,yarn队列,Hive、Spark、Flink等各种组件的数据,以及一些平台级的元数据采集,包括调度系统,数据地图、血缘、权限、任务、存储、数据应用等平台的一些元数据,在采集之后,会进行一些系统化的加工,我们遵循于数据仓的层级规范的建设来提升数据的应用性。同时,在加工的过程中也完全遵循于数据治理理念保障数据都是高质可靠。

第二,元数据应用。

在元数据应用部分我们会通过元数据仓库为基础,给上游的产品平台提供更多应用的能力支持。

第三,分析部分。

我们会制定很多业务的核心指标和一些内部指标,通过一些治理场景用户的行为分析来发掘一些潜在的数据问题。另外就是会在各个维度去建设各类分析看板。

第四,挖掘部分。

这个是在数据上更高一层的应用,我们会推动一些挖掘算法和机制,去发现一些可治理的问题,比如我们可能会对于一些数据资产的相似性进行挖掘。基于历史数据对未来的一些预测,比如说一些数据表行数的不动值预测,一些提效的推荐类挖掘。

最后是元数据的开放部分。

我们会和字节跳动内部各个数据团队来去合作共建按需开放,提供元数据能力。

产品模块

下面介绍平台侧的产品模块,同样也可以在火山引擎DataLeap产品中看到。

第一、治理全景。

解决有哪些资产问题。目前在平台上有一些大盘,包括数据的SLA大盘、存储大盘、计算大盘、报警大盘等等,这些大盘针对于不同的治理场景会有一些不同维度的展示,包括一些数据趋势,一些占比列表,或者是一些聚合明细等数据。支撑治理全景的是我们底层的元数据仓库以及刚才说的数据应用的部分,对数据进行一些加工。

第二、健康分。

我们希望健康分能够衡量资产的健康度,让资产持续健康。在健康分的建设里面,我们遵循几个步骤。第一是首先在健康分的建设里面,通过元数据仓库提供健康分的各维度的分析建设,包括一些成员排名。第二个部分是有了这些健康分之后提供更多的维度分析,以及扣分项分析,成本分析,能够将健康分拆解,拆分成可治理的这样的项目,有了这些可治理的项目之后,具体关联到一些数据治理的操作和方案的设计。比如,我们可以针对于一些健康分的扣分项,来跳转到一些垂直治理的场景界面来去进行一些操作设置或者是做一些规划式治理方案的关联。这个是健康分的一些思路。

在健康分的设计方面,我们遵循了一个三层架构的思路。首先第一层是比较大宏观的资产层。包括存储的健康分,计算健康分,数据质量等等。第二层是针对于这一类自办的一些聚合类指标,包括比如说存储健康分里面的无效数据,或者是高效存储的问题。计算健康分里面无效任务和高效计算的问题。数据质量方面的SLA或者是监控保障的问题。最后一层是比较详细的规则层。包括存储里面TTL设置,或者是无查询的一些资产。比如说计算里面的连续失败任务或者是资源利用率比较低的一些任务。数据质量里面的一些SLA的事故数或者是一些监控的缺失、无效报警等等。

在有了资产全景和看板之后,我们其实可以进行一些治理操作,对应于一站式里面的第二层治理操作的部分。前面介绍到我们其实有两种路径,第一类是规划类的路径,可能是从一个比较高的视角来去拆解治理的问题。这个路径里面,我们是要目标明确,过程可拆解,收益可量化,结果可验收。

系统设计

最后我们来说一下系统是如何来支撑规划式的架构呢?

规划式架构:

在底层的基础架构设计方面主要有几个模块。

首先在后端是一个主逻辑的操作部分,包括了刚才所说的规则,治理规则、治理域,一些圈选的能力,资产的查询和收益的统计,治理目标的制定,治理结果的查看,治理的催办和具体的治理操作。

支撑于后端逻辑的部分,有几个抽象的服务模块。第一个模块是数据查询服务,主要解决的一个问题是底层不同存储异构的适配。将这些原数据经过一些上层应用的加工,放到不同应用的存储里面来适应不同的查询类型。通过这个服务来进行一些解耦。这个服务里面数据的来源就是事件的收集服务,我们会做一些格式的转换,消息的处理,包括一些底层组件的关联和系统回调和数据采集等等。

同时与这个服务有关联的就是治理具体实施的模块,这个和系统里面治理的操作有关。

举个例子,比如进行一些表的生命周期设置,或者是删除表等等操作。这些操作都会以消息的形式,经由执行模块去进行一些任务的下发和底层的组件进行调用。通过一些状态来把治理是否得到一些收益,消息是否成功,也由刚才的事件收集服务来放到查询服务里面,形成收益可查询的数据。

最后在治理规则和治理域的部分,提供了全规则能力,这部分我们提供了一些规则引擎的服务,包括对规则进行一些解析、查询转换,查询提交以及结果汇总,这个是底层架构对于上述功能的一些支持。

响应式架构:

接下来是响应式的流程,这个和主动式的流程非常像。包括消息触发,问题分析,推进治理,问题登记,总结复盘等等流程。响应式流程的框架和规划其实也是非常像。

主要有几个不同的部分。第一是左侧有个消息服务,因为我们这个路径其实是以消息来处发的,我们会打通与研发平台,质量平台,自然平台等很多处发消息和报警的一些平台,将他们的消息和报警统一收归到我们这个服务里面进行下发。下发的渠道可以有,比如说字节跳动用的飞书,或者邮件、电话、短信等等。这些消息形成的一些数据也会经由数据的收集放到查询服务里面,去做一些报警的展示。另外在消息这里,我们会和复盘模块进行强关联,对问题进行登记核准复盘。

最后是工作台,主要为了提效,解决待治理项,比如说现在有一些待治理的部分需要去处理,能够尽快去发起这个治理或者说我个人的一些资产情况,这个是工作台的核心思想。

治理场景的部分主要有质量、数据SLA、资源和报警的部分。

在资源优化场景上的目标主要是能够提供自主分析和低门槛优化能力。

现在主要集中在存储和计算两个方面,并提供了很多的垂直治理的能力。比如,可以在平台里面直接设置一些这种温存、降副本、TTL设置。计算方面,可以直接跳转任务详情做分析,任务下线和参数调整建议等等。

最后也谈谈我们的未来工作展望,如图所示:

第一个方面是继续加强我工具闭环能力。第二个方面是从通用数据治理的问题解决到更精细化的一些治理,包括自定义的指标、方案,以业务的视角来看待实际的问题。最后是增强型的数据治理,我们希望是能够在数据侧通过一些统计类、挖掘类,上升为一些算法和智能型的这种平台。

关注字节跳动数据平台微信公众号,

回复【PPT】获得本次分享材料。

产品介绍

火山引擎大数据研发治理套件DataLeap

一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。

后台回复数字“2”了解产品

扫码进入官方交流群

群内定期进行干货分享

技术交流、福利放送

字节跳动数据平台

点击

阅读原文

进入官网

了解DataLeap更多产品信息38000点赞评论收藏关于作者火山引擎数智平台VeDI所属团队号:字节跳动数据平台 相关产品评论未登录看完啦,登录分享一下感受吧~暂无评论

字节跳动数据平台

字节跳动数据平台

字节跳动

字节跳动

关于我们我们的产品新闻动态企业社会责任加入我们企业社会责任报告2022企业社会责任报告2021企业社会责任报告2020企业社会责任报告2019企业社会责任报告2018企业社会责任报告责任战略北京字节跳动以“正直向善、科技创新、创造价值、担当责任、合作共赢”作为公司的社会责任理念,高度重视公司社会责任管理与建设;依托公司产品与技术,结合字节跳动公益平台与北京字节跳动公益基金会,聚焦“推动科技普惠”、“丰富文化生活”、“增进社会福祉”、“共创绿色未来”四大方向,推动公司产品价值、商业价值、社会价值的统一。推动科技普惠字节跳动公益平台字节跳动公益平台是由民政部指定互联网公开募捐信息平台,于2021年11月正式上线。平台致力于将传统公益活动的各个参与方集结在一起,为公益机构提供公益信息发布渠道,为用户提供公益参与渠道。结合抖音、今日头条、西瓜视频等字节产品特色,通过公益信息的传递,高效率连接公益信息与社会资源,让人人能够便捷参与公益的平台。

通过字节跳动公益平台,公益机构可以在抖音、今日头条、西瓜视频上筹款,来开展公益项目、解决社会问题。西瓜视频无障碍影院2021年6月,西瓜视频无障碍影院频道上线,通过配音解说和对白以外的电影场景描述,让视障人士真正“听懂”电影。截至2021年底,已上线80部无障碍电影,在抖音、今日头条亦可观看。

西瓜无障碍影院源自公益Hackathon比赛员工的创意方案,后由产品研发、设计团队牵头,启用专门对接媒体资源和配音的团队,10余名员工志愿者参与撰写脚本及配音,助力将普通的电影转化为专供视力障碍者观看的无障碍电影。让老年人更好地享受数字生活考虑到老年用户的身体机能和认知特点,针对产品功能也进行了精准的适老化改造,抖音推出“长辈模式”、今日头条上线“大字模式”,解决了老年用户不会用、看不清等问题。为更好地聆听老年人需求,抖音发起“老友计划”,包括招募老年用户代表、召开老年朋友见面会和走进社区等活动,并推出老友客服专线;同时,线上发起“老友守护联盟”,线下开展“银龄时代”、“银杏家园”等公益项目,帮助老年人更好地融入数字生活。丰富文化生活古籍保护与活化2021年6月,字节跳动联合中国文物保护基金会成立字节跳动古籍保护专项基金,首期投入1000万元,定向资助古籍修复、古籍活化、古籍数字化等项目。在未来1-2年,将资助修复包括《永乐大典》“湖”字册在内的105册(件)古籍,并培养100名古籍修复人才。更多信息,请访问识典古籍院士开讲2021年10月,中国科协打造的“科创中国”与抖音共同创办《科创中国·院士开讲》栏目,邀请国内知名院士在今日头条、抖音、西瓜等平台讲授各种顶尖科技知识。助力非遗传承抖音发起“非遗合伙人”、“看见手艺计划”等项目,通过提供资源扶持、官方培训、运营服务等,让更多人看见和喜欢非遗,助力非遗传承和保护。

“看见手艺计划”推出“黄河流域守护人”专项活动,走进黄河流域9省(区),利用短视频和直播电商,全方位助力黄河流域非遗保护与传承和传统手艺发展。截至2021年10月,共有4950位黄河流域非遗传承人通过平台获得收益。抖音开学公开课2021年9月,抖音举办“方寸之间,遇见知识——抖音开学公开课”活动,邀请洪子诚、戴锦华等8位来自清华大学、北京大学、中国科学院大学、武汉大学的教授学者,围绕文学、电影史、物理学、生物学等领域直播分享通识知识,拉近更多普通人与知识的距离。扬帆计划2021年7月,抖音启动第一期“扬帆计划”,吸引高校学者与文化人士参与,直播分享文化、艺术、读书、历史、外语、教育、哲学、地理、经济等九个专业领域的知识,鼓励更多人参与知识直播,以满足当下快速增长的学习需求。跨年科学演讲2021年12月29日至31日,中科院科学传播局与抖音联合举办“中国科学院2022跨年科学演讲”,中科院院士武向平、中国古动物馆馆长王原、中科院物理所研究员曹则贤等科学家们在“中科院物理所”的抖音直播间,为网友带来丰富的科学知识;内容从人类起源到中科院最新创新成果,从“黑土粮仓”到量子革命,从一元二次方程到规范场论等。《十万个为什么》系列短视频2021年12月,抖音联合少年儿童出版社共同推出《十万个为什么》系列短视频,邀请知名院士和教授,中科院物理所、厦门科技馆、《博物》杂志等科普机构以及抖音科普创作者共同参与其中,以实验、动画、实景装置等形式展示和讲解,推动全社会形成讲科学、爱科学、尊重科学和崇尚科学的氛围。西瓜视频推出科学纪录片《宇宙》《宇宙》是由西瓜视频、CCTV-9、BBC联合出品的科学纪录片,于2021年11月起在西瓜视频和鲜时光TV全网独播,同时在CCTV-9电视端播出。纪录片借助神奇的CGI特效、最新的科学研究成果和一系列空间望远镜拍摄到的影像资料,让观众沉浸于浩瀚宇宙的故事之中。连接艺术生活抖音持续为艺术作者提供展示自我、传播艺术的机会,向用户带来新锐和深刻的潮流艺术与文化体验。我们希望借助短视频和直播的力量,拉近艺术与大众的距离,构建全民艺术交流平台。蔡国强、村上隆、Mr Doodle 等知名艺术家在抖音为用户带来更丰富的艺术内容。

抖音与多个艺术展览合作,将线下艺术展搬上抖音。2021年9月,中国美术馆、木木美术馆等8家艺术机构与抖音联合发起了“DOU来看展”,将展品以抖音的短视频、特效和直播进行线上展出。抖音“艺术·创造·生活”艺术创作者大会2021年3月,抖音举办“艺术·创造·生活”艺术创作者大会。超过200位抖音艺术创作者参会,并在现场就抖音连通高雅艺术与大众审美的合理性、新内容体裁给艺术表达带来的新机遇等议题,进行了交流。会上,国家大剧院、中国油画学会、上海芭蕾舞团等8家艺术机构,担任“抖音艺术指导机构”;钢琴家郎朗、豫剧名家汪荃珍等11位艺术文化名家出任“抖音艺术顾问”。增进社会福祉山货上头条字节跳动公益和抖音电商共同打造“山货上头条”项目,基于抖音电商的“内容电商”能力,联合区域共同巩固产业基础、共建助农产品标准、优化营销路径、将特色、高品质的“山货”带出乡村;持续培训运营帮扶区域经营主体,带动农民增收;提升区域助农产业标准化、品牌化、集约化、数字化和可持续化,并辐射带动区域产业氛围和水平提升。山里DOU是好风光以抖音为主要平台,依托当地特色文旅资源打造品牌,助力乡村文旅。目前,“山里DOU是好风光”在抖音发起的话题活动累计播放量超过110亿次,其中,子话题#宝藏古村 话题累计播放量超过 56亿次。越来越多的乡村美好风光,走进大众视野;而乡村风土人情和文明风貌的优质内容,也吸引了更多游客到乡村旅游,带动当地文旅产业发展。字节乡村英才计划“乡村英才计划”是抖音数字学堂为促进乡村发展、推动乡村数字化人才培养发起的公益项目。面向乡村发展的主体企业、个人和青年学生提供商业管理、数字新媒体和产业数字化相关的知识、技能和素养培训。目标是培养复合型数字化人才,服务乡村和区域产业发展。乡村守护人“乡村守护人”计划,聚焦乡村“人”的角度,通过培训、创作者扶持等方式发掘本地乡村创作者,激励他们围绕乡村风貌、美食特产、特色民俗、生产劳作等内容方向进行长期创作,并通过电商、POI 等产品功能带动乡村产业可持续发展。益童成长平台益童成长平台由北京字节跳动与北京师范大学公益研究院合作开发,是一个供儿童和儿童教育工作者使用的开放性内容平台。截至2021年12月,益童成长平台输出17个主题活动方案,服务青少年2430人次。益校计划及益童美好空间2021年河南、山西暴雨发生后,北京字节跳动公益基金会联合中国教育发展基金会发起益校计划,支持当地灾后教育系统重建和恢复工作,已支持超过200所学校。此外,字节跳动公益启动“益童美好空间”项目,主要支持学校修缮重建和建设专属教室,同时也提供课外活动支持。益童乐园“益童乐园”是壹基金发起、由字节跳动公益提供支持的儿童公益项目,通过组建儿童友好空间、聘用当地专职儿童工作者开展儿童服务、提供优质儿童课外内容,帮助乡村儿童获得更好的校外陪伴、学习和成长,提升乡村儿童的自信心、好奇心和责任心。截至2021年12月,益童乐园累计服务儿童已达116.67万人次,志愿者参与2.6万人次。西部儿科医师培训计划字节跳动医务基金与中国红十字基金会合作,资助西部儿科医师到北京儿童医院等5家国家级儿科医学中心培训3个月,每年4期,目前已在贵州完成40人的两期培训。网络保护机制青少年网络保护一直备受社会关注,也是北京字节跳动长期努力的方向。抖音推出了未成年用户专属模式——青少年模式。2021年9月,抖音进一步升级未成年保护机制,成为行业首家推出14岁以下实名认证用户全部进入青少年模式的平台。助力应急救灾灾难面前,北京字节跳动发挥产品、技术的优势,为社会创造更大价值,与大家共克时艰。2021年,面对河南和山西地区水灾,以及国内新冠肺炎疫情的不定时发生,北京字节跳动针对不同突发事件出台相关紧急措施,为受灾群众提供资金物资援助,助力灾情应对。字节跳动医务基金2021年,字节跳动医务基金持续为因抗击疫情而不幸感染或殉职的医务工作者提供资助。截至2021年底,已为3737名医务工作者提供人道救助。其中,为3670名因抗击疫情而不幸感染的医务工作者,每人资助10万元;为67名因抗击疫情而不幸殉职的医务工作者,每个家庭资助100万元。2021年9月,字节跳动医务基金因“在抗击新冠肺炎疫情慈善领域作出突出贡献”,荣获第十一届“中华慈善奖”。头条寻人“头条寻人”项目借助平台、技术、庞大的用户量以及各地志愿者,按照地理定位将走失者相关信息通过手机弹窗和APP内优先推荐的方式推送给附近的人,帮助失散家庭寻找走失者。自2016年启动以来,该项目累计帮助1.8余万个家庭团聚,相当于每天都有10个家庭因头条寻人而实现团圆。共创绿色未来绿色发展字节跳动采用节能环保的数据中心(IDC)建设方案,根据数据业务特性上线定制化的压缩算法, 节省存储空间约1400PB,相当于减少了约14000台服务器的使用能耗;通过编码算法优化,节省存储空间100PB, 相当于减少了约1000台服务器的使用能耗。同时,字节跳动积极推进办公场所的节能改造,以减少自身运营对环境的影响。抖音自然为了更好地带动用户关注生物多样性保护,并将关注转化为公益行动,字节跳动公益和抖音联合发起抖音自然项目。通过抖音自然,用户不仅可以学习和分享动植物知识,还可以通过捐赠自然能量参与守护生物多样性。抖音将根据用户捐赠的能量,配捐支持野生动植物保护。目前,抖音自然已经上线三江源雪豹保护地、黄泥河东北虎保护地,共有2600万人参与守护。鼓励员工参与公益充电行动2021年劳动节假期,跳跳糖员工公益招募了9位大力教育团队志愿者,和北师大的教育专家一起组成了为乡村儿童“充电”的“充电小组”。他们离开城市,来到贵阳市批林村的花溪益童乐园,用一个假期的时间和孩子们生活在一起。他们用教育者的视角,观察、调研乡村儿童的学习、生活、健康状况,用自己的专业优势为孩子们构建出专业、系统、丰富有趣的儿童课外活动内容体系。跳跳糖公益伙伴计划“跳跳糖公益伙伴计划”是字节跳动公益于2021年发起的一项合作计划,为公益机构提供项目资助和员工捐赠配捐机会,并提供更多资源支持,鼓励公益创新及员工志愿者技能型志愿服务,倡导社会各界关注并参与公益事业。银河系安居指南2021年7月,抖音设计团队联合跳跳糖员工公益开展公益团建,和心智障碍孩子们交流、共绘。抖音设计团队根据此次共绘图案进行二次创作,设计7张原创海报及26款公益文创产品,并在线上商城及线下工区发起义卖。文创产品售卖利润全部捐赠至心智障碍群体,助力他们获得艺术疗愈。维护健康的网络生态平台信息安全与隐私保护北京字节跳动致力于打造完善的信息安全管理体系,开展持续的信息安全审计,切实保护信息安全与用户隐私。同时,北京字节跳动致力于通过信息安全宣导来提升员工和大众的信息安全意识。对内,我们通过培训、知识漫画等多种形式,提升员工安全意识;对外,我们通过短视频、线上活动,普及信息安全知识。西瓜视频中视频伙伴计划原创保护2021年6月,西瓜视频联合12426版权监测中心和北京版权监测中心上线中视频伙伴计划,为创作者提供7×24小时全网维权监测服务。截至2021年12月,西瓜视频已经实现4450部原创作品的全网实时监测,共发现侵权作品11972个,投诉下架侵权链接9194条。可持续发展的经营与管理与员工共同成长北京字节跳动长期坚持平等多元化与非歧视的原则,为不同年龄、性别的人才提供海纳百川的包容环境。我们提供具有市场竞争力的薪酬与福利,并切实保障员工的各项合法权益;为积极了解员工的意见和建议,还发起“面对面”“字节跳动吐槽会”等活动,并借助“随时反馈”工具和一对一访谈调研,创造坦诚沟通的机会。

为员工创造良好的成长环境,提供丰富的学习资源和广阔的发展空间,新员工经由系统培训快速融入后,在各业务线也能获得针对性的专业能力培训,从而实现自我成长。与员工共享幸福北京字节跳动始终关注员工的身心健康,倡导工作与生活平衡。我们为员工打造健康安全的工作环境,以及提供年度体检、心理关怀等项目守护员工健康。同时,我们通过为员工组织丰富多元的业余活动,努力为员工营造温暖的工作氛围,提升员工的幸福感。关于我们企业文化行为准则大事记我们的产品联系我们新闻动态公司新闻数据报告企业社会责任社会责任动态字节跳动公益官网加入我们招聘官网中文简English中文简© 2012-2022 字节跳动京公网安备 11000002002068号京ICP备12025439

字节跳动罗旋:AI加持的数据飞轮,新一代数据价值探索方式 - 知乎

字节跳动罗旋:AI加持的数据飞轮,新一代数据价值探索方式 - 知乎切换模式写文章登录/注册字节跳动罗旋:AI加持的数据飞轮,新一代数据价值探索方式火山引擎云上增长新动力9月19日,2023火山引擎V-Tech数据驱动科技峰会上,火山引擎对数智平台VeDI进行了升级,并为旗下数据研发治理套件DataLeap、智能数据洞察DataWind两款产品增加AI能力。全链路拥抱大模型,降低消费门槛,让数据更加普惠。字节跳动数据平台负责人罗旋以《AI加持的数据飞轮:新一代数据价值探索方式》为主题,阐释了数据飞轮在字节跳动的经验沉淀。并从数据资产、数据生产、数据洞察等三个方面,解读了火山引擎数据产品特点,为企业的数据飞轮运转,提供全新价值。罗旋表示:“数据飞轮的构建,是业务与数据双向驱动发展过程。如今,大模型给我们提供了另一种探索方向——如何用新的AI技术,来加速飞轮转动。AI加持的数据飞轮,有望改变企业探索数据价值的方式,大幅提升企业数智生产力和消费力。”以下为罗旋演讲全文:01数据与业务双向驱动数据飞轮数据飞轮模型是基于字节跳动内部大量实践沉淀提炼出来的。不同时期、不同业务形态下,我们究竟是如何做的?从业务的角度选择两个例子来看,一个是最开始的今日头条,另一个是在抖音平台上成长起来的全域兴趣电商——抖音电商。做今日头条的时候,当时业务使用数据最典型的场景,是做推荐算法优化和产品优化。所以我们自建的第一个数据产品就是A/B测试,这个产品提供的核心价值就是帮助业务科学决策、快速迭代。当时业务发展速度很快,对数据的需求重点是能快速判断、快速试错,拿到结果就能去做下一步行动。抖音电商的复杂程度,比单纯做内容、做货架电商都要高,对数据的依赖性和要求也更高。以电商618的直播大促为例,运营团队在活动的前中后,都需要使用数据,做大量地分析、诊断、决策和相对应的运营动作。活动前,要通过分析发现趋势好品,做预测和引流;活动中,要有实时监测、分析,来及时调整商品次序、引流策略等,如果慢一步,机会可能转瞬即逝;活动后,要做复盘、分析沉淀。当我们对比这两个业务例子时能够看到几点变化:1.消费人群越来越广。相对于早期,现在有更多非技术背景同学,参与到数据消费的过程中。以运营同学为例,他们不需要太多数据的专业知识,而更多是结合自己的运营专业能力,快速发现问题、定位问题、分析和改变策略。2.消费的场景越来越多。从之前侧重辅助决策,拓展到了监测预警、分析预测,实时业务决策,实时决策到实时业务行动,以及行动后的数据闭环,覆盖了整个业务过程。3.随着使用人群、使用场景的大幅扩充,对数据产品的要求越来越高。可以看到,我们所提供的数据能力一直在变化,会根据业务痛点需求不断演进迭代。但其中不变的点,是我们一直坚持从业务的视角出发,一定要在解决业务痛点的过程中去发挥数据的价值。我们认为,这才是数据飞轮相对于其他理念或者模型最本质的区别。数据飞轮的构建,是业务与数据,双向驱动发展过程。02“两个80%”数据消费让数据飞轮转起来很多人会问,数据飞轮看上去很美好,能解决业务问题,但它怎么才能转起来呢?我们认为,让数据最大程度被用起来,是让飞轮转动起来的核心驱动力。数据消费的深度和广度,表征了数据融入业务的程度。业务对数据的使用越频繁,就表示业务对数据越依赖,对数据价值越认可,数据飞轮转动起来的可能性就越大。同时,业务的发展也驱动我们数据资产的不断建设和提升。数据资产,并不是以收了多少数据,建了多少张表,统一了多少数据作为衡量标准,而是以终为始,从数据怎么被业务消费的角度来判断。如果从更定量的角度,来看数据消费的程度,我们自己有两个经验指标。在业务应用中,我们已经达到了80%的员工直接使用数据产品,这意味着在字节跳动,每天有大量的员工在用数据驱动的方式工作。在数据繁荣消费的驱动下,自然而然就会产生数据资产化的需求,来保障数据消费的效率和质量。在数据资产中,最典型的交付物就是数据指标,我们认为,被管理起来的数据指标要能覆盖80%的日常分析。当我们明确了数据消费是第一驱动力,也知道了需要做到什么程度之后,下一个自然的问题就是,怎么做到呢?我们的做法是,让数据流融入业务的工作流程中,让数据更易获取,更低门槛使用,进而业务对数据的依赖度和信赖度都更高。在做直播运营活动的时候,一个运营可能要同时盯几十上百场直播。针对这个场景,我们提供一个批量诊断的能力,帮助运营整合所有需要盯的直播间,通过智能诊断和自动化提示,来告知效果跟预期的差异,并给出针对性的建议来提升整体效果。这不仅让盯盘效率得到了倍数级提升,还相当于请了个小助理,帮助运营分析和达成目标。03助力数据消费火山引擎VeDI拥抱AI除了数据与业务的充分融合之外,新技术的出现,往往也会带来更大的变革。大模型给我们提供了另一种探索方向——如何用新的AI技术,来加速飞轮的转动。首先,在数据资产管理上,我们探索出AI找数助手。DataLeap-找数助手能用自然语言问答的方式,来检索包括表、数据集、仪表盘、数据指标、维度、业务知识库等在内的多类型数据源,并做出拟人化总结。在与用户对话式交互的过程中,大语言模型(LLM)可以更好地理解用户真实意图,也带给用户较贴近人工响应的体验,让“找数”本身的门槛变得更低,过程更有可能自助完成。在数据生产环节,我们也研发了基于大模型的开发助手。它既可以做到将用户的自然语言描述自动生成SQL代码,也可以针对已有的代码做诊断优化、问题修复、解释与注释等等。而像文档搜索、函数使用、代码示例等辅助性需求,当然也能被覆盖。开发助手很大程度上减小编程语言带来的障碍,降低了数据开发的准入门槛。在数据洞察环节,我们也提供了DataWind-分析助手。用户只要输入自然语言,就可以查询想要的数据、生成表达式,也可以查看由可视化图表组成的仪表盘来达成对应目的。与此同时,DataWind-分析助手还联通了飞书等办公协同工具,用户可以通过“IM消息订阅+自然对话”的方式,做更多的延展分析。通过这些方式,真正让数据分析能更加灵活,更能随时随地发生。END目前,字节跳动在内部的这些实践,都在通过火山引擎数智平台对外提供服务。从更长远的视角来看,我们相信,AI加持的数据飞轮,将彻底改变企业探索数据价值的方式,大幅提升企业数智生产力和消费力。过往花费在基础、重复、低效工作中的时间和精力,会被大量解放出来,进而让每一个人的创造力得到释放。发布于 2023-09-21 18:07・IP 属地北京字节跳动(ByteDance)人工智能数据​赞同 1​​添加评论​分享​喜欢​收藏​申请

一文看懂,字节跳动数据平台9年发展的4阶段-DOIT

一文看懂,字节跳动数据平台9年发展的4阶段-DOIT

登录|注册

APP下载

DOIT APP下载

DOIT学院APP下载

DOSTOR

|

DOITAPP

DOIT数据智能产业媒体与服务平台

立即打开

DOITAPP

DOIT数据智能产业媒体与服务平台

立即打开

首页

资讯

智能计算

智能数据

智能网络

人工智能

云计算

物联网

新科技

安全

业界

数字化转型

专题

学院

活动

客户端

白皮书

2022存储芯图

2022闪存市场全景白皮书

Dell 白皮书下载

2022分布式存储市场调研报告

2021数据云图

2021存储芯图

数据云图

数据基础设施

行业云原生

闪存市场

一文看懂,字节跳动数据平台9年发展的4阶段

谢 世诚

发布于 2022-08-18

分类:业界

前言:因为业务需要,字节跳动催生出包括「中台+数据BP」模式在内的数据平台;因为市场需要,这些历经内部场景实践的能力正在通过火山引擎全面对外输出。

8月18日,ArchSummit全球架构师峰会在北京举行。

字节跳动数据平台负责人罗旋、极客邦双数研究院特聘专家/精益数据方法创始人史凯、第四范式研发副总裁/基础技术负责人郑曌、经纬中国高级投资经理谢岩围绕“数字化实践”等多个主题进行了经验分享。

随着互联网流量红利的日渐消退,部分企业正通过“数据驱动”挖掘更深层次的业务价值,进入精益运营时代。

作为国内率先践行“数据驱动”理念的企业之一,字节跳动近年来备受关注。

峰会上,罗旋用“快”和“多”两个字,概括了字节跳动过去几年的发展特征,并指出正是在这样的背景下,字节跳动数据平台完成了9年的演进。

优先解决最显露的业务问题

“快,是业务发展快,2012年推出的今日头条APP用两年时间就实现了用户破千万,抖音APP上线17个月DAU破亿,”罗旋在分享中解释了他所理解的字节跳动发展,“多,则是业务类型多样,除今日头条、抖音为代表的图文信息流、短视频外,近年来字节跳动还发展出包括电商、toB等多条业务线。”

2014年,字节跳动开始了数据平台建设。与同时期大多数企业的数据建设体系不同,字节跳动在路径选择上摒弃了大而全的规划,而是聚焦当时业务所面临的实际问题,优先解决业务痛点。

如果将字节跳动数据平台的建设历程拆解来看,其实不难发现大致可以分出4个演进节点。

首先是为了解决业务最直接暴露出来的问题的阶段,如满足业务随时迭代上线需求,罗旋将其称为“原始阶段”。

在这个阶段,A/B测试是解决业务结果验证问题的重要工具,即便是在今天,字节跳动旗下产品的每一次迭代背后,都还有A/B测试的身影,“像当时今日头条迭代发版,很多业务侧的提问我们都能用A/B测试的实验数据来解答,很实用而且高效。”

在之后几年,随着应用场景增多,A/B测试的功能也在不断丰富完善,并于2016年正式形成标准化服务式产品,并在内部以Libra命名,这也是字节跳动数据平台的第一款自研产品。

发力引擎层建设

最上层的业务问题逐步有了敏捷稳定的解决通路,但另一方面,原本覆盖在业务表现之下的数据层却以指数型增长的速度暴露出更多难题,这也推动着字节跳动数据平台进入第二阶段。

2017年,以抖音为代表的业务数据量急速膨胀,不断挑战原本数据平台的能力边界。罗旋举例,2017年之前,数据平台每天处理的数据量大约在200TB,但去年这个数字已经达到了1500PB,数据平台日新增数据大约在40PB。

成长太快带来的问题很明显,他提到很多时候对数据链路个环节进行优化处理,不只是因为成本,很多时候是因为资源不够,“导致我们必须要去这么做”。

也正因如此,通过优化来解决数据量和分析效率,成为字节跳动数据平台首要的一个突破重点,并为此做了诸多选型尝试,如Presto、Kylin、Druid 等——但出于对“能够处理海量数据、秒级响应的超高性能、自主灵活的分析模式”这三项基本需求的考虑,字节跳动数据平台最终选定ClickHouse为长线使用的OLAP查询引擎,并基于自身发展实际情况做了大量二次开发和优势强化。

同时聚焦提升资源利用率、降低运维成本、提升数据实时性三大性能点,字节跳动数据平台通过火山引擎对外发布ByteHouse。

截止到8月的数据显示,ByteHouse在字节跳动内部的数据分析服务超过了2.5万个节点,单集群最大规模可以达到2400个节点左右;从业务上来看,在字节内部支撑了超过80%的字节分析应用。

数据BP+中台,中央厨房式协作

在历经原始阶段和建设阶段后,字节跳动数据平台的演变进程进入第三个阶段,平台阶段。

在这一阶段,字节跳动已经拥有非常多元迥异的业务线形态,“作为数据平台,我们需要去考虑之前的经验还有没有用?如果要用,该怎么用?以及面对这么多不同的业务,应该怎么更敏捷更深入地加以支持,等等。”

显然,这些并不是依赖技术层面的优化创新就能解决。

通过从HRBP(Human Resources Business Partner ,人力资源业务合作伙伴)中,字节跳动数据平台汲取到了灵感,并以此建立数据BP机制,探索中台能力+数据BP的模式。

数据BP机制在组织形式上属于可以统一管理调配的集中式,执行上分布式到各个业务,解决业务问题。这种组织方式的优势在于,尽管 BP 团队向上支撑了不同类型的业务线,但其实向下兼容了数据平台底层的各项能力,具备相似的技能栈,对工具引擎的学习和使用是高效且顺滑的。

作为数据平台能力的解决方案提供方,数据 BP 团队成员在组织上都汇报给数据平台,统一培养和调度,相互学习经验的角度,对中台能力也保证足够的熟悉度,以便根据不同业务的特性,灵活组合,提供综合性的数据解决方案,也保证了复用性,不轻易重复造轮子;在具体工作时,又能分布在不同的业务线上,跟业务团队充分融合在一起,把自身视为业务线的一部分,保障与业务一起成功。

“就好比是一个中央厨房和餐厅的关系,”罗旋进一步解释道,“通过采摘或者购入食材,进行一系列复杂而标准化的加工,最终为各餐厅提供标准化的成品或者半成品的食物;而餐厅,则可以根据自己的用户需要,煎炸烹煮各种方式来将这些食物组合加工形成一道道的菜,直接供客户食用。”

其中,中央厨房就是中台,而数据BP则承担着餐厅的角色。

现阶段,数据BP+中台的模式在字节跳动内部已经得到广泛运用。

2021年Pico正式并入字节跳动,如何快速实现已有数据平台对全新业务形态的适配与支持,成为难题。

但数据BP机制成为了一道突破口:通过数据BP团队率先融入业务了解业务形态,并梳理出当前阶段的数据状况及痛点诉求,整理出相对完善的技术方案;使得基础数据可以快速接入,同时进行历史数据迁移。

而当基础数据接入之后,Pico业务就能直接在字节数据平台的体系中使用各种数据建设和数据分析应用产品。

这一整套操作只用了3周时间,从Pico业务感知上来说,基本属于「即插即用」的体验。

此外,为了更好评估中台+数据BP模式,字节跳动数据平台还提出了更具量化参考意义的体系标准,“0987”——稳定性 SLA 核心指标要达到 0 个事故,需求满足率要达到 90%,数仓构建覆盖 80% 的分析需求,同时用户满意度达到 70%。

如今,字节跳动数据平台在历经多年内部业务场景实践后,已在探索中台+数据BP模式通过火山引擎的对外输出,这也是字节跳动数据平台历程发展的第四阶段——To B阶段。

截至目前,智能数据洞察DataWind、增长分析 DataFinder 、 A/B 测试 DataTester、客户数据平台VeCDP、增长营销平台GMP、大数据研发套件DataLeap和云原生数据仓库ByteHouse等在字节跳动内部支持服务比较好的产品和经验,已经实现封装成数据套件,并通过火山引擎全面对外提供服务。

“同时,我们也在尝试数据 BP 的是否能帮助到外部客户,让他们也享受到和抖音一样的数据服务级别。”罗旋补充道。

据了解,仅在过去一年时间, 火山引擎的多款数据产品已被陕西旅游集团、服装品牌 Levi’s 、得到APP、买什么都省APP、慢慢买APP等文旅、零售、互联网在内的多个行业头部企业应用,并获得实效。

未经允许不得转载:DOIT » 一文看懂,字节跳动数据平台9年发展的4阶段

标签:字节跳动

编辑:xiesc

上一篇易仓科技使用阿里云PolarDB数据库HTAP功能 复杂查询性能实现百倍提升

下一篇思科发布2022财年第四季度及全年业绩报告

相关推荐2022字节跳动“安全范儿”高校挑战赛报名开启!三大赛道全面升级!字节跳动获得中国多媒体企业创新技术奖飞书宣布于5月19日举办发布会 将重磅发布4.0版本火山引擎与亿咖通科技达成战略合作 全面提升车载场景内容体验

近期文章

用Ampere解释,到底什么是云原生处理器?

2022 年 7 月头号恶意软件:Emotet 持续肆虐

开源无界 携手共创:SUSECON北京2022开源峰会暨SUSE30周年庆典隆重召开

超前布局、全球领先:蚂蚁可信密态计算登榜“十大硬核科技”

亚信科技半年报披露:抢占信创数据库市场高地、三新业务带动公司发展向好

href='http://ads.doit.com.cn/www/delivery/ck.php?n=a6e348d3&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'>

热门标签微软IBM服务器英特尔云存储云计算EMC惠普虚拟化AMD数据中心甲骨文安全软件苹果ITWindows戴尔CIO收购至强病毒芯片HP

© 2022 DOIT

  本站主题由 themebetter 提供   关于我们 | 广告服务 | 加入我们 | 联系我们

北京世纪百易网络有限公司 版权所有 | 京ICP证101168号 | 京ICP备12007866号-14 | 京公网安备 11010502032764号

字节跳动数据平台 - 博客园

字节跳动数据平台 - 博客园

会员

周边

新闻

博问

AI培训

云市场

所有博客

当前博客

我的博客

我的园子

账号设置

简洁模式 ...

退出登录

注册

登录

字节跳动数据平台

博客园

首页

新随笔

联系

订阅

管理

[置顶]

火山引擎VeDI广州研讨会:数据飞轮为金融行业数字化转型注入新活力

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 火山引擎数据飞轮研讨会现场 3月5日,火山引擎数据飞轮行业研讨会在广州举办。本次会议以金融领域为焦点,汇集了多家金融行业企业,旨在共同探讨“数据飞轮”在行业的应用与发展。火山引擎的数据产品解决方案专家们围绕“数据飞 阅读全文

posted @ 2024-03-06 10:39

字节跳动数据平台

阅读(3)

评论(0)

推荐(0)

编辑

[置顶]

从MySQL到ByteHouse,抖音精准推荐存储架构重构解读

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 抖音依靠自身推荐系统为用户推送可能感兴趣的视频内容,其中兴趣圈层是推荐的重要能力,通过理解核心用户的偏好特征,判断两者偏好的相似性,从而构建同类用户的兴趣圈层,实现精准推荐。 以往的兴趣圈层往往依赖单一的维度或标签 阅读全文

posted @ 2024-03-05 10:56

字节跳动数据平台

阅读(2)

评论(0)

推荐(0)

编辑

[置顶]

数据驱动的实验文化:字节跳动产品优化之路

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在近期CCF TF第123期用户体验工程主题活动中,火山引擎DataTester产品经理结合字节跳动在产品优化方面的经验,围绕“数据驱动的实验文化”这一话题进行了分享。 用户体验优化的最终目的是为了实现商业价值,为 阅读全文

posted @ 2024-02-29 10:40

字节跳动数据平台

阅读(4)

评论(0)

推荐(0)

编辑

[置顶]

助力春节精准营销,火山引擎ByteHouse加速数据分析效率

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着元宵节的结束,2024年春节圆满落幕。据抖音生活服务发布的《2024年春节消费数据报告》显示,除夕至大年初六(2月9日-2月15日),吃喝玩乐等生活服务业日均消费规模同比增长153%,这与春节期间商家开展的各种 阅读全文

posted @ 2024-02-27 10:47

字节跳动数据平台

阅读(4)

评论(0)

推荐(0)

编辑

[置顶]

A/B测试助力企业优化私域运营:春节营销节点背后的科学决策

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 2024春节是一个近4.8亿人次出游的假期,餐饮、旅游、零售等热门行业的收入都不同程度上涨,以消费行业为例,春节作为开年的重大营销节点,商家围绕春节的私域营销之战不断升级,一方面由于消费者年底的可支配财富多且消费需 阅读全文

posted @ 2024-02-23 17:10

字节跳动数据平台

阅读(1)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎ByteHouse:如何为OLAP设计高性能向量检索能力?

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景 随着LLM技术应用及落地,数据库需要提高向量分析以及AI支持能力,向量数据库及向量检索等能力“异军突起”,迎来业界持续不断关注。简单来说,向量检索技术以及向量数据库能为 LLM 提供外置的记忆单元,通过提供与 阅读全文

posted @ 2024-02-06 14:49

字节跳动数据平台

阅读(186)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎ByteHouse:分析型数据库如何设计并发控制?

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 分析型数据库设计并发控制的主要原因是为了确保数据的完整性和一致性,同时提高数据库的吞吐量和响应速度。并发控制可以防止多个事务同时对同一数据进行修改,导致数据不一致的情况发生。通过合理的并发控制策略,分析型数据库可以 阅读全文

posted @ 2024-01-31 19:05

字节跳动数据平台

阅读(190)

评论(0)

推荐(1)

编辑

[置顶]

A/B实验在字节跳动推荐系统中的应用与实践

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 本文作者为火山引擎A/B测试团队资深研发工程师,内容主要介绍A/B实验在推荐系统中的应用,并介绍了在实践中总结的几点经验,希望对做信息流推荐、电商推荐、广告推荐等方向的同学有所启发。 什么是A/B实验? AB实验, 阅读全文

posted @ 2024-01-31 17:26

字节跳动数据平台

阅读(22)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎ByteHouse:分析型数据库如何设计列式存储

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 列式存储通过支持按列存储数据,提供高性能的数据分析和查询。作为云原生数据仓库的 ByteHouse,也采用列式存储设计,保证读写性能、支持事务一致性,又适用大规模的数据计算,为用户提供极速分析体验和海量数据处理能力 阅读全文

posted @ 2024-01-30 11:41

字节跳动数据平台

阅读(24)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎VeDI:新增微信小程序广告A/B实验功能,助力企业降低获客成本

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,火山引擎数智平台VeDI旗下的A/B测试平台(DataTester)宣布推出一项创新的广告投放解决方案,这项能力让企业可以在微信小程序端进行广告A/B测试,以更科学、更精准地优化广告策略。此项功能的推出将为企 阅读全文

posted @ 2024-01-25 11:00

字节跳动数据平台

阅读(15)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎ByteHouse:“专用向量数据库”与“数据库+向量扩展”,怎么选?

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景 随着LLM(Large Language Model)的不断发展,向量检索也逐渐成为关注的焦点。LLM通过处理大量的文本数据,获取丰富的语义信息,从而能够更好地理解和生成自然语言。然而,LLM的输出通常是一系 阅读全文

posted @ 2024-01-23 15:09

字节跳动数据平台

阅读(15)

评论(0)

推荐(0)

编辑

[置顶]

抖音APP如何实现用户生命周期提升

摘要:

> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,在火山引擎数智平台在北京举办的“超话数据:企业产品优化分享”的活动上,抖音策略产品经理分享了抖音产品提升用户生命周期的难点及解决办法。 他提到,抖音产品优化涉及到性能、交互、内容和业务等多方面因素,其优化 阅读全文

posted @ 2024-01-12 10:21

字节跳动数据平台

阅读(16)

评论(0)

推荐(0)

编辑

[置顶]

性能持续突破!火山引擎ByteHouse上线向量检索能力

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着LLM技术应用及落地,数据库需要提高向量分析以及AI支持能力,向量数据库及向量检索等能力“异军突起”,迎来业界持续不断关注。简单来说,向量检索技术以及向量数据库能为 LLM 提供外置的记忆单元,通过提供与问题及 阅读全文

posted @ 2024-01-10 10:50

字节跳动数据平台

阅读(13)

评论(0)

推荐(0)

编辑

[置顶]

安克创新与火山引擎数智平台开展合作:数据分析降门槛 数据协同破边界

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,消费电子品牌安克创新与火山引擎数智平台(VeDI)达成合作,双方将聚焦安克创新大数据平台的海量数据分析场景,共同探索包括大模型应用、IM(即时通讯,Instant Messaging)办公软件协同等在内的数智 阅读全文

posted @ 2024-01-04 10:44

字节跳动数据平台

阅读(18)

评论(0)

推荐(0)

编辑

[置顶]

泛互联网行业A/B测试全解析:产品优化的创新之道

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎数智平台举办了“超话数据:企业产品优化分享”的活动。火山引擎产品解决方案专家从企业应用的视角,分享了A/B实验在产品全用户生命周期的体验优化和案例。 在用户拉新环节,企业可以通过广告素材实验、落地页实 阅读全文

posted @ 2023-12-28 10:44

字节跳动数据平台

阅读(10)

评论(0)

推荐(0)

编辑

[置顶]

十问ByteHouse:如何基于ClickHouse玩转向量检索?

摘要:

在 12 月 28-29 日上海 QCon 全球软件开发大会上,火山引擎 ByteHouse 技术专家田昕晖将分享基于《云原生数仓 ByteHouse 构建高性能向量检索技术实践》话题。 阅读全文

posted @ 2023-12-19 11:18

字节跳动数据平台

阅读(17)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎DataLeap:助你实现从数据研发1.0到数据研发3.0的跨越

摘要:

近日,火山引擎开发者社区 Meetup 第 12 期暨超话数据专场在深圳举办,本次活动主题为“数智化转型背景下的火山引擎大数据技术揭秘 ”,来自 DataLeap 的产品经理黄虹带来了 DataOps 相关实践的分享,以下内容经小编整理编辑后发布。 阅读全文

posted @ 2023-12-18 14:51

字节跳动数据平台

阅读(23)

评论(0)

推荐(0)

编辑

[置顶]

火山引擎AB测试:企业产品优化主题分享在北京举办

摘要:

近日,火山引擎数智平台在北京举办了“超话数据:企业产品优化分享”的活动。 阅读全文

posted @ 2023-12-18 11:10

字节跳动数据平台

阅读(4)

评论(0)

推荐(0)

编辑

[置顶]

活动预告| 字节跳动基于DataLeap的DataOps最佳实践

摘要:

DataOps概念从2014年首次被提出,不断演化和发展,在2018 年Gartner 的数据管理成熟度曲线中确定了 DataOps,标志着 DataOps 被业界接纳和认可。随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者 阅读全文

posted @ 2023-12-15 10:45

字节跳动数据平台

阅读(6)

评论(0)

推荐(0)

编辑

[置顶]

单日30PB量级!火山引擎ByteHouse云原生的数据导入这么做

摘要:

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎ByteHouse技术专家受邀参加DataFunCon2023(深圳站)活动,并以“火山引擎ByteHouse基于云原生架构的实时导入探索与实践”为题进行了技术分享。在分享中,火山引擎ByteHous 阅读全文

posted @ 2023-12-14 10:34

字节跳动数据平台

阅读(4)

评论(0)

推荐(0)

编辑

下一页

公告

Copyright © 2024 字节跳动数据平台

Powered by .NET 8.0 on Kubernetes