中间件

# 数据库

Elasticsearch 查询优化策略有哪些

11 mins. 4572 24

Elasticsearch 查询优化策略有哪些

Elasticsearch 是一个强大的分布式搜索和分析引擎，但在处理海量数据时，查询性能可能成为瓶颈。以下是一些常见的 Elasticsearch 查询优化策略，适用于不同场景下的性能调优。

一、索引设计优化

1.1 合理设置分片数量（Shard）

避免过多分片，增加开销。
根据数据量和写入负载预估主分片数。

1.2 使用合适的映射（Mapping）

明确字段类型，避免动态映射带来的性能损耗。
对不需要全文检索的字段设置为 keyword 类型或禁用 index。

1.3 使用 _source filtering

只返回需要的字段，减少网络传输和内存消耗，使用_source指定需要的字段

1.4 使用 doc_values 和 fielddata 的选择性

对用于聚合、排序的字段启用 doc_values（默认启用）。
对 text 字段如需聚合，显式启用 fielddata，但注意内存占用。

1.5 使用别名（Alias）管理索引生命周期

利于滚动更新、按时间分区等策略。

二、查询语句优化

2.1 避免使用通配符查询（Wildcard）

如 wildcard 或 regexp，效率低，建议结合 ngram 分词器在索引阶段拆解。

2.2 尽量使用 Filter 替代 Query 上下文

在 bool 查询中使用 filter 子句来跳过相关度评分计算。

2.3 使用 _source filtering 减少返回字段

2.4 限制返回条目数量

使用 size 控制返回结果数量。
对于仅统计场景，使用 track_total_hits: true 并结合 size=0。

2.5 使用 collapse 进行字段折叠（去重）

适用于对某个字段进行去重的需求，如根据用户 ID 去重搜索记录。

2.6 避免深度翻页（Deep Pagination）

使用 search_after 替代 from/size 实现高效翻页。
或者使用快照游标（Scroll API）进行大批量数据遍历。

三、聚合优化

3.1 控制聚合字段基数

高基数字段（如 UUID）会显著影响性能。
可考虑使用 cardinality 聚合时调整精度参数 precision_threshold。

3.2 使用 terms + top_hits 组合聚合要谨慎

每个桶内嵌套查询代价高，建议分多次查询或缓存中间结果。

3.3 使用 date_histogram 代替 range 时间区间聚合

更高效，且支持时间粒度自动划分。

四、硬件与集群配置优化

4.1 节点角色分离

主节点、数据节点、协调节点分离部署，提升整体吞吐能力。

4.2 JVM 内存设置合理

不超过物理内存的 50%，且不超过 31GB（避免压缩指针问题）。

4.3 使用 SSD 磁盘

提升 I/O 性能，特别是对于写密集型场景。

4.4 副本策略

读多写少场景可适当增加副本提高并发查询能力。
写多场景可设为 0 副本，待写入完成后恢复。

上一篇更回味

中间件

# 数据库

DragonflyDB深度自测

DragonflyDB深度自测简介：全世界内存最快的数据库，Dragonfly是一种针对现代应用程序负荷需求而构建的内存数据库，完全兼容Redis和Memcached的 API，迁移时无需修改任何代码。相比于这些传统的内存数据库，Dragonfly提供了其25倍的吞吐量，高缓存命中率和低尾延迟，并

xiaodong发布于 April 12,2024

下一篇更精彩

中间件

Java接入ChatGPT API

使用Java快速接入ChatGPT API

xiaodong发布于 July 21,2023

评论区

Data Overview

你今天进步了吗~

20
文章
5
分类
608
访问量
2021-02-13
建站天数

Welcome to Xiaodong's Techzone!

你今天进步了吗~

20
文章
5
分类
608
访问量

首页

蒙ICP备2025028887号-1

返回顶部
打开菜单
返回首页
打开搜索

请您轻一点，我是很昂贵的机器人哦! O.O