Web渗透基础之正则表达式

学习正则表达式可以参考菜鸟教程和W3c。

什么是正则表达式？

正则表达式又称规则表达式，在代码中常简写为regex、regexp或RE，正则表达式通常被用来检索、替换那些符合某个模式的文本。

为什么使用正则表达式？

典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了，但它缺乏灵活性，若采用这种方法搜索动态文本，即使不是不可能，至少也会变得很困难。

通过使用正则表达式，可以：

测试字符串内的模式。
例如，可以测试输入字符串，以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
替换文本。
可以使用正则表达式来识别文档中的特定文本，完全删除该文本或者用其他文本替换它。
基于模式匹配从字符串中提取子字符串。
可以查找文档内或输入域内特定的文本。

例如，您可能需要搜索整个网站，删除过时的材料，以及替换某些 HTML 格式标记。在这种情况下，可以使用正则表达式来确定在每个文件中是否出现该材料或该 HTML 格式标记。此过程将受影响的文件列表缩小到包含需要删除或更改的材料的那些文件。然后可以使用正则表达式来删除过时的材料。最后，可以使用正则表达式来搜索和替换标记。

正则表达式的格式？

"/表达式/[修饰符]"

正则表达式的语法——字符（一）

数字：\d

非数字：\D

空白字符（空格、制表符、换页符等）：\s

限定符：

{n} => 例如: 0{8} 意思是指只有连起来8个0才会被匹配

{n,} =>例如： 0{2,} 意思是只要有2个0及其以上的就会被匹配

{n,m} => 例如： 0{2,4} 意思是最少匹配2个0，最多匹配4个0 注：被匹配时，默认匹配最多的次数

修饰符：

/i => 不区分大小写

/A => 匹配规则必须从头开始匹配

/s => .将匹配一切字符

/x => 正则表达式中的空白字符会被忽略

非空白字符：\S

单词字符（26个英文字母+数字+下划线）：\w

非单词字符：\W

正则表达式的语法——字符（二）

字符集合：[单个字符或字符区间]，用于匹配集合内字符

比如：

[a-z]表示a-z这26个小写字母

[0-9a-z]表示0-9这10个数字和a-z这26个小写字母

[123a-h]表示包含数字1，2，3和a-h这8个字母

注意：两个不同的字符段间一定不要用逗号隔开

非集合字符：[^单个字符或字符区间]，用于匹配非集合内字符

比如：

[^0-9]表示匹配所有非数字字符

[^a-zA-Z]表示匹配所有非字母字符

8字符集合的数字区间该注意什么？

数字区间正则只能匹配0-9的数字，因为正则只能一位一位的匹配，所以超过9以外的数字只是我们给的概念，对于正则机制来说它是认不到的，比如[100-120]就无法被匹配

正则表达式的语法——关键字

() 表示一个整体

^ 匹配输入字符串的开始位置

$ 匹配输入字符串的结尾位置

. 通配符，代表任意字符但不匹配换行

* 匹配0次或者多次

+ 匹配1次或者多次

\ 转义字符

| 两项之间的一个选择

匹配模式的优先级（优先级从高到低排）

\转义字符；

()[]大原子和原子表；

*+?{n}{n,}{n,m}重复匹配（匹配次数）；

^$\b\B边界限制；

|模式选择

本文标题：Web渗透基础之正则表达式
本文链接：https://blog.langsasec.cn/index.php/2021/11/14/regexp/
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！