Perl 正则表达式详解：从入门到进阶，掌握核心技巧101

Perl 以其强大的文本处理能力而闻名，而这其中正则表达式的运用功不可没。Perl 的正则表达式引擎功能强大且灵活，远超许多其他编程语言。本篇文章将作为您的 Perl 正则表达式手册，带您从入门到进阶，逐步掌握核心技巧，并通过丰富的示例代码帮助您理解和应用。

一、正则表达式的基本概念

正则表达式 (Regular Expression, 简称 regex 或 regexp) 是一种描述文本模式的语言。它允许您使用简洁的表达式来匹配、查找、替换文本中的特定部分。Perl 使用 `/regex/` 或 `m/regex/` 的语法来表示正则表达式。其中，`regex` 即为正则表达式本身。

基本元字符：
.: 匹配任意单个字符 (除了换行符)。
^: 匹配字符串的开头。
$: 匹配字符串的结尾。
*: 匹配前面字符零次或多次。
+: 匹配前面字符一次或多次。
?: 匹配前面字符零次或一次。
[]: 匹配方括号内列出的任意一个字符。
[^]: 匹配除方括号内列出的字符外的任意一个字符。
\: 转义字符，用于匹配特殊字符本身 (例如 `\.`, `\*`, `\+`, `\` 等)。
|: 或者操作符，匹配左右两边的任意一个表达式。
(): 分组操作符，将多个字符组合成一个单元。

示例：

/perl/: 匹配字符串 "perl"。

//: 匹配 "perl", "prrl", "psrl" 等。

/^hello/: 匹配以 "hello" 开头的字符串。

/world$/: 匹配以 "world" 结尾的字符串。

/colou?r/: 匹配 "color" 和 "colour"。

/[abc]/: 匹配 "a", "b", 或 "c"。

/[^0-9]/: 匹配任何非数字字符。

二、量词和限定符

除了基本的元字符，Perl 还提供了更强大的量词和限定符，用于精确控制匹配的次数：
{n}: 匹配前面字符恰好 n 次。
{n,}: 匹配前面字符至少 n 次。
{n,m}: 匹配前面字符至少 n 次，最多 m 次。
\b: 匹配单词边界。
\d: 匹配数字。
\D: 匹配非数字。
\w: 匹配单词字符 (字母、数字、下划线)。
\W: 匹配非单词字符。
\s: 匹配空格符。
\S: 匹配非空格符。

示例：

/\d{3}-\d{3}-\d{4}/: 匹配类似 "123-456-7890" 的电话号码。

/\bperl\b/: 匹配独立的单词 "perl"，而不是 "perlman" 中的 "perl"。

/\w+@\w+\.\w+/: 匹配简单的 email 地址。

三、捕获组和反向引用

括号 `()` 用于创建捕获组，可以提取匹配到的子字符串。可以使用 `$1`, `$2`, `$3` 等变量访问捕获组的内容。这在替换操作中非常有用。

示例：

/(\d{4})-(\d{2})-(\d{2})/: 匹配日期格式 "YYYY-MM-DD"，并将年、月、日分别捕获到 `$1`, `$2`, `$3` 中。

s/(\d{4})-(\d{2})-(\d{2})/$2/$1/$3/: 将日期格式 "YYYY-MM-DD" 转换为 "MM/DD/YYYY"。

四、修饰符

Perl 正则表达式支持多种修饰符，用于修改匹配行为：
i: 忽略大小写。
g: 全局匹配，匹配所有符合条件的子串。
m: 多行匹配，`^` 和 `$` 可以匹配每一行的开头和结尾。
s: 单行模式，`.` 可以匹配包括换行符在内的所有字符。
x: 扩展模式，忽略正则表达式中的空格和注释。

示例：