正则表达式实例讲解-基础篇

发布于 2021-06-23  153 次阅读


匹配2020的数据

正则表达式可以匹配某些特定的数据,如果你想要从庞大的文字信息中提取出一小段你需要的数据,那么正则表达式或许能帮到你。

例如:输入 code就可以匹配所有包含code的数据(图片中code左边的/和右边的的/g暂时可以忽略)

image

字符组

如果只是使用正则表达式来匹配文本,没有什么意义,毕竟检测一个文本中是否有另一个字符串本来就非常简单。

正则表达式强大的地方在于它可以迅速地用极简单的方式达到字符串的复杂控制。

字符组([])允许匹配一组可能出现的字符。

例如:

image2

可以发现[Pp]既可以匹配大写的P也可以匹配小写的p

区间

有一些常见的字符组非常大,比如,我们要匹配任意的数字,如果依照上述代码,每次我们都需要使用[0123456789]。

但是这样好吗?

如果要匹配从a-z的字母呢?我想你肯定不愿意从a写到z了!

为了适应这一点,正则表达式引擎在字符组中使用连字符(-)代表区间,依照这个规则,我们可以总结出三点:

  1. 要匹配任意数字可以使用[0-9];
  2. 如果想要匹配所有小写字母,可以写成[a-z];
  3. 想要匹配所有大写字母可以写成[A-Z]。

例如:

image4

匹配特殊字符

正则表达使用了 - 号代表了区间,但是我们有时候需要匹配的符号就是 -号,该怎么办呢?

这个时候我们需要对-号进行转义操作,即 \-。

在正则中使用 \ 就可以进行对特殊符号进行转义,对 - 进行转义就可以表示为 \-,即 \- 就代表了 - 号本身。

偷偷告诉你,转义符 \ 也适用于其他的符号,例如匹配圆括号可以使用 \(

例如:

image4

 匹配字母

[]字符组中可以放多个条件例如,想要匹配数字的小写字母可以这样写:[0-9a-z]

请使用正则表达式匹配字母,规则如下:

  • 匹配a-z的小写字母;
  • 匹配A-F的大写字母;

取反

到目前为止,我们定义的字符组都是由可能出现的字符定义,不过有时候我们可能希望根据不会出现的字符定义字符组。

例如:匹配不包含数字的字符组

image

可以通过在字符数组开头使用 ^ 字符实现取反操作,从而可以反转一个字符组(意味着会匹配任何指定字符之外的所有字符)。

再看一个例子:

image

这里的 n[^e] 的意思就是n后面的字母不能为 e。

快捷匹配数字和字母

以目前学到的内容,如果想要匹配所有的字母,会使用[A-Za-z],要匹配数字会使用[0-9]

还有没有更简洁的方式呢?

正则表达式引擎提供了一些快捷方式如:\w 可以与任意单词字符匹配。

当我们想要匹配任意数字的时候也可以使用快捷方式\d,d即digit数字的意思,等价于[0-9]。

快捷方式描述
\w与任意单词字符匹配,任意单词字符表示 [A-Z]、 [a-z]、[0-9]、_
\d与任意数字匹配

匹配空白

\s快捷方式可以匹配空白字符,比如空格,tab、换行等。

例如:

image8

 单词边界

\b 匹配的是单词的边界,例如,

image9

\bmaster\b 就仅匹配有边界的master单词。

当然其他类型的数据,比如数字也能匹配:

image9

快捷方式取反

快捷方式也可以取反,例如对于\w的取反为\W,将小写改写成大写即可,其他快捷方式也遵循这个规则。

示例:

image11

开始和结束

正则表达式中 ^指定的是一个字符串的开始,$指定的是一个字符串的结束。

例如:

image

指定字符串的结束:

image

任意字符

.字符代表匹配任何单个字符,它只能出现在方括号以外。

值得注意的是: .字符只有一个不能匹配的字符,也就是换行符(\n),不过要让.字符与换行符匹配也是可以的,以后会讨论。

示例:

image

可选字符

有时,我们可能想要匹配一个单词的不同写法,比如color和colour,或者honor与honour。

这个时候我们可以使用 ? 符号指定一个字符、字符组或其他基本单元可选,这意味着正则表达式引擎将会期望该字符出现零次或一次。

例如:

image

在这里 u? 表示u是可选的,即可以出现也可以不出现,可以匹配的是 honor 和 honour 。

通过这个案例可以知道?的作用就是匹配它之前的字符0次或1次。

请你思考一个问题: .? 表达式能匹配什么呢?

重复

到目前为止,我们只是学习了关于仅出现一次的字符串匹配,在实际开发中,肯定不能满足需求,比如要匹配电话号码、身份证的时候就无法满足需求了。

如果遇到这样的情况,我们可能期望一个字符组连续匹配好几次。

在一个字符组后加上{N} 就可以表示在它之前的字符组出现N次。

例如:

image16

重复区间

可能有时候,我们不知道具体要匹配字符组要重复的次数,比如身份证有15位也有18位的。

这里重复区间就可以出场了,语法:{M,N},M是下界而N是上界。

举个例子:

image

\d{3,4} 既可以匹配3个数字也可以匹配4个数字,不过当有4个数字的时候,优先匹配的是4个数字,这是因为正则表达式默认是贪婪模式,即尽可能的匹配更多字符,而要使用非贪婪模式,我们要在表达式后面加上 ?号。

image

开闭区间

有时候我们可能遇到字符组的重复次数没有边界,例如:

image

闭区间不写即可表示匹配一个或无数个。

速写

还可以使用两个速写字符指定常见的重复情况,可以使用 + 匹配1个到无数个,使用 *代表0个到无数个。

即:+等价于{1,},*等价于{0,}。

+号示例:

image

*号示例:

image

总结

多种匹配模式

实例描述
[Pp]ython匹配 “Python” 或 “python”。
rub[ye]匹配 “ruby” 或 “rube”。
[abcdef]匹配中括号内的任意一个字母。
[0-9]匹配任何数字。类似于 [0123456789]。
[a-z]匹配任何小写字母。
[A-Z]匹配任何大写字母。
[a-zA-Z0-9]匹配任何字母及数字。
[^au]除了au字母以外的所有字符。
[^0-9]匹配除了数字外的字符。
实例描述
.匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符,请使用象 ‘[.\n]’ 的模式。
?匹配一个字符零次或一次,另一个作用是非贪婪模式
+匹配1次或多次
*匹配0次或多次
\b匹配一个长度为0的子串
\d匹配一个数字字符。等价于 [0-9]。
\D匹配一个非数字字符。等价于 [^0-9]。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
\W匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]‘。
\b匹配一个长度为0的子串