分布式索引引擎架构原理 | Never too old to learn

# 分布式索引引擎架构原理

# 1.倒排索引到底是啥？

所谓的倒排索引，就是把你的数据内容先分词，每句话分成一个一个的关键词，然后记录好每个关键词对应出现在那些id标识的数据里

# 2.什么叫分布式搜索引擎？

把大量的索引数据拆散成多块，每台机器放一部分，然后利用多台机器对分散之后的数据进行搜索，所有操作全部是分布在多台机器上进行，形成了完整的分布式的构架。

# 3.ElasticSearch的数据结构

index，索引，类似于数据库的一张表 document，文档，代表了index的一条数据

# 4.Shard数据分片机制

每个index你都可以指定创建多少个shard，每个shard就是一个数据分片，会负责存储这个index的一部分数据

# Replica多副本数据冗余机制

万一3太机器中有一台宕机了怎么办？实现高可用Replica多副本数据冗余机制。在ES中支持每个index设置一个replica数量的，每个shard对应的replica副本。初始化的shard就是primary shard，而且primary shard和replica shard是绝对不会放在一台机器上，避免一台机器宕机直接一个shard副本丢失也就同时丢失了

ES默认是支持每个index是5个primary shard，每个primary shard有1个replica shard作为副本

全量分析 阅读量：