高性能敏感词工具

类型

状态

日期

链接

摘要

标签

分类

图标

密码

github.com

https://github.com/houbb/sensitive-word

📖 功能描述

这是一款简单好用的高性能敏感词检测工具，由老马开发并开源。该工具基于DFA算法实现，目前敏感词库内容收录6W+（源文件18W+，经过一次删减）。主要用于文本内容的敏感词识别、过滤和替换，适用于需要内容审核的各类应用场景。工具支持多种文本格式处理和自定义替换策略，提供了丰富的API接口便于集成。

🔍 核心知识点

💡 主要功能

高性能检测：基于DFA算法，性能可达14W+ QPS，应用无感

丰富词库：内置6W+敏感词，且持续优化更新

灵活API：提供fluent-api实现，使用优雅简洁

多种处理方式：支持敏感词的判断、返回、脱敏等常见操作

格式转换：支持全角半角互换、英文大小写互换、数字常见形式互换等

多样化检测：支持敏感词检测、邮箱检测、数字检测、网址检测、IPV4等

自定义策略：支持用户自定义替换策略、敏感词和白名单

动态更新：支持数据的数据动态更新，实时生效

标签分类：支持敏感词的标签接口+内置分类实现

🛠️ 应用场景

内容审核系统：论坛、社交媒体、评论区等UGC场景的内容过滤

聊天应用：即时通讯工具中的敏感词检测与过滤

文本处理：各类文本处理系统中的内容安全检查

数据脱敏：对敏感信息进行规范化处理，保护用户隐私

合规性检查：确保发布内容符合相关法律法规要求