高并发 ≠ 大数据量：Spring Boot 中高效处理几万条数据的实战指南

在日常开发中，我们常常混淆两个概念：

高并发（很多人同时访问）
大数据量处理（单次操作涉及几万、几十万条数据）

前者关注“请求的并发度”，后者关注“任务的数据规模”。
本文聚焦后者——当你需要在 Spring Boot 应用中一次性处理大量数据时，会面临哪些典型问题？又该如何系统性地解决？

一、大数据量处理的四大核心问题

❌ 问题 1：内存溢出（OOM）

1	List<User> users = userMapper.selectAll(); // 5万条全加载到内存

JVM 堆内存不足，直接抛出 OutOfMemoryError；
即使没 OOM，也会频繁 Full GC，拖慢整个应用。

❌ 问题 2：数据库慢查询

1	SELECT * FROM orders LIMIT 50000, 1000;

LIMIT offset, size 在 offset 很大时性能急剧下降；
数据库需扫描并跳过数万行，CPU 和 I/O 压力剧增。

❌ 问题 3：HTTP 超时 & 用户体验差

同步处理 5 万条数据耗时 30 秒+；
网关/前端超时（通常 10~30 秒），用户看到“失败”；
无法知道进度，也无法中断。

❌ 问题 4：写入效率低下

1
2
3

for (Order order : orders) {
    orderMapper.insert(order); // 5万次 SQL！
}

网络往返开销巨大；
事务过大或过小都会影响性能与稳定性。

二、对症下药：四大问题的解决方案

✅ 解决方案 1：分批流式读取 → 避免 OOM

核心原则：不一次性加载全部数据，而是“边读边处理”。

错误做法（传统分页）：

1 2	// ❌ 仍可能慢（如果内部是 LIMIT offset, size） userMapper.selectPage(pageNum++, 1000);

正确做法（游标分页）：

Long lastId = 0L;
while (true) {
    List<Order> batch = orderMapper.selectAfterId(lastId, 1000);
    if (batch.isEmpty()) break;
    
    process(batch); // 处理完立即释放内存
    
    lastId = batch.get(batch.size() - 1).getId();
}

✅ 内存占用恒定（仅 1000 条），无 OOM 风险。

✅ 解决方案 2：游标分页 + 索引优化 → 消除慢查询

为什么游标分页快？

-- ✅ 利用主键索引直接定位
SELECT * FROM orders 
WHERE id > #{lastId} 
ORDER BY id 
LIMIT 1000;

数据库通过索引 O(1) 定位起始位置；
向后顺序读 1000 行，无需跳过任何数据。

关键配套：合理设计索引

游标字段（如 id、create_time）必须有索引；

多条件查询使用复合索引，并遵循最左前缀原则：

1 2	-- 支持 WHERE user_id = ? AND create_time > ? ALTER TABLE orders ADD INDEX idx_user_time (user_id, create_time);

避免索引失效：

-- ❌ 失效：字段上使用函数
WHERE DATE(create_time) = '2023-01-01';

-- ✅ 正确：改用范围查询
WHERE create_time >= '2023-01-01'
  AND create_time < '2023-01-02';

✅ 解决方案 3：异步执行 + 进度反馈 → 提升用户体验

架构设计：

用户点击“开始处理” → 后端立即返回 {"taskId": "123"}
后台用 @Async 异步执行批量任务
前端轮询 /task/123/status 获取进度

@Async("batchTaskExecutor")
public void processBatch(String taskId) {
    int total = countTotal();
    int processed = 0;
    Long lastId = 0L;
    
    while (hasMore(lastId)) {
        List<Order> batch = fetchBatch(lastId);
        saveProcessed(batch);
        
        processed += batch.size();
        lastId = batch.get(batch.size() - 1).getId();
        
        taskService.updateProgress(taskId, processed, total);
    }
}

✅ 用户不等待，系统不阻塞，支持查看进度甚至取消。

✅ 解决方案 4：批量写入 + 事务控制 → 提升写入效率

批量插入（MyBatis 示例）：

<insert>
  INSERT INTO orders (id, user_id, amount) VALUES
  <foreach collection="list" item="item" separator=",">
    (#{item.id}, #{item.userId}, #{item.amount})
  </foreach>
</insert>

控制事务大小：

每 500~2000 条提交一次事务；
避免事务过大（undo log 膨胀）或过小（频繁 commit）。

MySQL 参数调优（可选）：

1
2
3

innodb_buffer_pool_size = 4G
innodb_log_file_size = 1G
innodb_flush_log_at_trx_commit = 2  # 非金融场景

三、技术选型建议：按场景匹配方案

场景	推荐方案
简单批处理（<10万）	Spring Boot + 游标分页 + `@Async`
复杂 ETL（10万~百万）	Spring Batch（支持重试、跳过、分区）
导出 Excel	EasyExcel（SAX 流式读写，避免 POI OOM）
实时报表分析	ClickHouse / Doris（MySQL 不适合 OLAP）