System Design Interview

设计 YouTube：DAG 任务调度设计 YouTube：DAG 任务调度

重要组件：元数据存储、转码服务、视频存储、CDN、API 服务
重要概念：流式传输（边下边播）有对应的协议
视频转码：DAG 调度一系列任务，视频、音频、元数据，视频检查、缩略图生成、添加水印、编码等
错误处理：重试、兜底、告警、扩容等
成本优化：针对长尾，热门走 CDN 冷门走存储，冷门少编码、按需编码

主流流式传输协议
1. HTTP 自适应流（点播 / 直播主流）
  1. HLS（HTTP Live Streaming）
    1. 苹果主导，基于 HTTP/TCP，将视频切为ts 分片（2–10 秒），用m3u8索引管理
    2. 支持自适应码率（ABR）、跨终端、CDN 友好、兼容性极强
    3. 延迟：普通版10–30 秒，低延迟版（LL-HLS）可至3–5 秒
  2. DASH（Dynamic Adaptive Streaming over HTTP）
    1. MPEG 标准，通用型自适应协议，切片为 MP4/TS，索引为MPD
    2. 比 HLS 更灵活，适配更多编码 / 加密 / 码率策略，被视为下一代通用协议
    3. 延迟：普通版10–30 秒，低延迟版（LL-DASH）可至3–5 秒
  3. HTTP-FLV
    1. 基于 HTTP 封装 FLV，延迟3–5 秒，适合直播拉流，浏览器需插件 / 播放器支持
2. 实时 / 推流协议（直播专用）
  1. RTMP/RTMPS
    1. Adobe 开发，基于 TCP，低延迟（1–3 秒），主要用于主播推流到服务器
    2. 浏览器原生不支持，需 Flash / 播放器，现多用于推流而非分发
  2. WebRTC
    1. 浏览器原生实时通信，延迟 <400ms，适合视频会议、低延迟互动直播
  3. SRT
    1. 低延迟、抗丢包，适合专业直播 / 广电传输，延迟 <1 秒
  4. RTSP/RTP
    1. 控制 + 传输分离，多用于监控、IPTV，需专用服务器，防火墙穿透差
常见视频网站技术方案
1. YouTube
  1. 点播 / 直播分发（观众端）：HLS 为主，DASH 为辅，适配 HTML5 播放器与多终端
  2. 直播推流（主播端）：RTMP/RTMPS为主，也支持 HLS、DASH 推流
2. Bilibili
  1. 点播 / 直播分发（观众端）：DASH 为主，HLS 兼容，适配多终端与自适应码率
  2. 直播推流（主播端）：RTMP为主，部分场景用 HTTP-FLV 拉流
3. 行业主流协议现状
  1. 点播 / 大规模直播分发：HLS 与 DASH 双主流，HLS 兼容性更强、DASH 更灵活
  2. 直播推流：RTMP/RTMPS仍是事实标准，WebRTC、SRT 在低延迟场景快速崛起
  3. 低延迟互动直播：WebRTC、LL-HLS、LL-DASH成为趋势

直播流媒体与点播的异同

相同点
1. 核心分发协议通用：HLS/DASH均可用于直播与点播，均支持ABR、CDN 分发、多终端兼容
2. 均需视频转码、切片、元数据管理、缓存 / CDN等基础架构

不同点

维度	点播（VOD）	直播（Live）
内容源	预录制、存储在服务器	实时采集、边录边传
延迟要求	高（10–30 秒可接受）	中 / 低（普通 1–30 秒，互动 < 1 秒）
用户控制	完整（暂停、快进、后退）	有限（仅暂停 / 播放，无快进）
协议侧重	分发优先（HLS/DASH）	推流 + 分发并重（RTMP 推流 + HLS/DASH 分发）
架构差异	转码后永久存储、按需拉取	实时转码、实时分发、无永久存储
错误处理	可重试、容错空间大	低延迟、快速恢复、不可长时间重试

设计 YouTube

加载中...

设计搜索自动补全系统：前缀树设计搜索自动补全系统：前缀树

重要组件：前缀树(Trie)、数据收集服务、查询服务
1. 前缀树每个节点缓存前k个查询，Trie 缓存于内存中，磁盘上的存储可将其序列化后用文档存储，也可以直接键值存储有助于增量更新缓存
2. 构建Trie的数据通常来自分析或日志服务，不需要实时构建/更新前缀树，异步构建即可
优化：限制前缀长度、分片存储、流处理支持实时热门查询

之前在节点直接存频率信息，现在为避免遍历整个Trie，在每个节点存储前k个最常用的查询

设计 YouTube

加载中...

设计聊天系统：分布式键值存储设计聊天系统：分布式键值存储

三类服务端推送技术的优缺点是什么？轮询、长轮询、WebSocket（最终采用）
核心组件：通用登录、注册等能力的无状态服务、转发和暂存消息（键值存储）的有状态服务、集成第三方的应用未运行时的通知服务、持久性键值存储
在线状态为什么用心跳检测比长连接是否断连更好？网络频繁断开重连是可能存在的

小型群聊流：接收者可以从多个用户接收消息，每个接收者都有一个收件箱（消息同步队列）

内存型 KV（如 Redis）：数据主要放内存
1. 优点：极快、微秒级、支持复杂结构
2. 缺点：
  1. 内存贵，存不了海量冷数据
  2. 持久化只是附加功能（AOF/RDB），不是设计核心
  3. 分布式扩容麻烦，不适合存几十 TB 的聊天历史
  4. 适合：缓存、在线状态、会话、限流、排行榜

持久化分布式 KV（如 HBase）：数据优先落磁盘，内存只做缓存

天生分布式、可水平扩容到几百台机器
设计目标就是：海量存储 + 高写入吞吐 + 数据不丢 + 长期保存

代表产品：

HBase（Facebook Messenger 用）：分布式、可扩展、列式 KV 数据库；基于 Hadoop 生态，强持久化；海量存储，稳定性极强；支持按范围 scan（拉取最近 100 条消息）；部署重，依赖 Hadoop
Cassandra（Discord 用）：去中心化分布式 KV，高可用之王；没有主节点，全部节点对等；写入性能在所有 KV 里第一梯队；一致性是最终一致（聊天完全够用）
RocksDB / LevelDB（嵌入式高性能 KV）：本地高性能嵌入式 KV 存储引擎；常用来存：用户收件箱、本地消息队列、离线消息；微信的很多聊天组件就基于它

TiKV（国产新一代分布式 KV）

维度	Redis（内存 KV）	HBase/Cassandra（持久化分布式 KV）
数据位置	内存为主	磁盘为主，内存缓存
存储容量	小（GB 级）	极大（PB 级）
持久化	附加能力	核心设计目标
数据可靠性	一般，丢盘风险	极高，多副本 + WAL
分布式扩容	复杂	简单，线性扩展
跨区域支持	弱	极强
适合场景	缓存、在线状态、热点数据	永久聊天历史、海量消息
成本	极高（内存贵）	低（用普通硬盘）

既然不用 Redis 存历史消息，那它用在哪？
1. 存储在线状态（user_id → online/offline）
2. 存储用户会话、连接信息
3. 缓存最近 N 条消息（提升读取速度）
4. 存储心跳、服务发现元数据
5. 做简单的消息暂存

设计聊天系统

加载中...

System Design Interview

设计 YouTube：DAG 任务调度 设计 YouTube：DAG 任务调度

设计搜索自动补全系统：前缀树 设计搜索自动补全系统：前缀树

设计聊天系统：分布式键值存储 设计聊天系统：分布式键值存储

历史记录

设计 YouTube：DAG 任务调度设计 YouTube：DAG 任务调度

设计搜索自动补全系统：前缀树设计搜索自动补全系统：前缀树

设计聊天系统：分布式键值存储设计聊天系统：分布式键值存储