[形式语言] 03 Regular Expression and Regular Language

正则表达式

定义

(正则表达式)

设 $\Sigma$ 是一个字母表，定义其上的正则表达式（Regular Expression, RE）如下构建：

$\emptyset$ 是 $\Sigma$ 上的正则表达式，表示语言 $\emptyset$
$\varepsilon$ 是 $\Sigma$ 上的正则表达式，表示语言 $\{\varepsilon\}$
$\forall a \in \Sigma$ 是 $\Sigma$ 上的正则表达式，表示语言 $\{a\}$
如果 $r, s$ 是 $\Sigma$ 上表达 $R$ 和 $S$ 的正则表达式，则
- $r + s$ 是 $\Sigma$ 上的正则表达式，表示语言 $R \cup S$
- $rs$ 是 $\Sigma$ 上的正则表达式，表示语言 $RS$
- $r*$ 是 $\Sigma$ 上的正则表达式，表示语言 $R^*$

(正则表达式的等价)

如果对于 $\Sigma$ 上的正则表达式 $r, s$，有 $L( r) = L(s)$，则 $r = s$。

关于正则表达式一条很有趣的性质是 $L((r^*s^*)^*) = L((r+s)^*)$

RE 与 FA 等价

正则表达式与有穷自动机等价。

为了证明这个问题，只需要证明对于任意正则表达式，存在一个 $\varepsilon$-NFA 与之等价；且对于任意 DFA，存在一个正则表达式与之等价。

对于任意正则表达式，存在一个 $\varepsilon$-NFA 与之等价
只要根据正则表达式的构建树，按照下面的规则进行转换即可。
Figure 1: convert symbol from RE to FA
Figure 2: convert empty string from RE to FA
Figure 3: convert empty set from RE to FA
Figure 4: convert union from RE to FA
Figure 5: convert concatenation from RE to FA
Figure 6: convert kleene star from RE to FA
对于任意 DFA 存在一个正则表达式与之等价
首先对 DFA $M = (Q, \Sigma, \delta, q_0, F)$ 上的结点进行标号：$1, 2, \dots, n$。
定义一条 $k$-路径为 DFA 上的一条路径，其中路径上的点（不包括起点和终点）的标号不超过 $k$。因此所有路径都是 $n$-路径。路径上的边构成了一个句子。
记 $R^k_{ij}$ 为点 $i$ 到点 $j$ 的所有 $k$-路径组成的语言，下面开始构造 $R^k_{ij}$。
- 当 $k=0$ 时
  - 如果 $i = j$，则 $R^0_{ii} = \varepsilon + a_1 + a_2 + \dots + a_n (\delta(i, a_l) = i) $
  - 如果 $i \ne j$，且不存在从 $i$ 到 $j$ 的路径，则 $R^0_{ij} = \emptyset$
  - 如果 $i \ne j$，且存在从 $i$ 到 $j$ 的路径，则 $R^0_{ij} = a_1 + a_2 + \dots + a_n (\delta(i, a_l) = j)$
- 当 $k > 0$ 时，假设所有 $k-1$-路径都可以转换成正则表达式
  - 则从 $i$ 到 $j$ 的路径有两种选择：不经过 $k$ 或至少经过 $k$ 一次
  - 因此 $R^k_{ij} = R^{k-1}_{ij} + R^{k-1}_{ik} (R^k_{kk})^{*} R^{k-1}_{kj}$
  根据这个方法可以构造出 $R^n_{q_0 q_f} (q_f \in F)$，此时 $R^n_{q_0q_{f1}} + R^n_{q_0q_{f2}} + \dots + R^n_{q_0q_{fm}} (f_i \in F)$ 即是答案。

正则语言的性质

泵引理

(Pumping Lemma)

设 RL $L$ 对应的 FA 为 $M$，则存在一个仅依赖于 $L$ 的正整数 $N$。如果存在 $z \in L$ 使得 $|z| \ge n$，那么 $\forall z \in L$，存在 $u, v, w$ 使得：

$z = uvw$
$|uv| \le N$
$|v| \ge 1$
$\forall i \ge 0. u v^i w \in L$
$N < |M|$

设 RL $L$，DFA $M = (Q, \Sigma, \delta, q_0, F)$ 满足 $L(M) = L, |Q| = N$。为方便起见，不妨设 $M$ 中不含不可达状态。

取 $z = a_1 a_2 \dots a_m \in L (m \ge N)$，记 $z$ 在 $M$ 上经过的状态为 $q_h = \delta(q_0, a_1 a_2 \dots a_h) (1 \le h \le m)$。

由于 $m \ge N$，因此存在 $q_i, q_j \in Q (1 < i < j < m = N)$ 使得 $q_i = q_j$。即

\[\delta(q_0, a_1 a_2 \dots a_i) = q_i\] \[\delta(q_0, a_1 a_2 \dots a_j) = q_j = q_i\]

因此 $\forall k \ge 0, \delta(q_i, (a_{i+1} a_{i+2} \dots a_j)^k = q_j = q_i)$

因此，

\[\forall k \ge 0, \delta(q_0, a_1 a_2 \dots a_i (a_{i+1} a_{i+2} \dots a_j)^k a_{j + 1} \dots a_m) = a_m\]

取 $u = a_1 a_2 \dots a_i, v = a_{i+1} a_{i+2} \dots a_j, w = a_{j+1} a_{j+2} \dots a_m $

则 $\forall i \ge 0$ 有

$|uv| \le N$
$|v| \ge 1$

泵引理是 RL 的必要条件，因此只能用来证明某些语言*不是*RL。为了简化证明，一般会构造一个 $uv$ 为同一字符串重复的情况。

证明 $L = \{0^n | \text{$n$ is a prime number}\}$ 不是 RL。

设 $L$ 是 RL，则 $L$ 满足 pumping lemma。

设 $n$ 是仅依赖于 $L$ 的正整数，取 $z = 0^{n + p} \in L$，其中 $n + p$ 是素数。由 pumping lemma 知存在 $z = uvw$ 满足条件。由于 $|v| \ge 1$，不妨设 $v = 0^k$，$u = 0^{n - k}$。且 $\forall i \ge 0, uv^iw = 0^{n - k + ik + p} = 0^{n + p + (i - 1)k}$。

当 $i = n + p + 1$ 时，$uv^iw = 0^{(n + p)(k + 1)}$ 非素数，矛盾，因此原命题不成立。

Myhill-Nerode 定理

Myhill-Nerode 定理及其证明

设 DFA $M = (Q, \Sigma, \delta, q_0, F)$，$M$ 在 $\Sigma^*$ 上的关系 $R_M$ 定义为

\[\forall x, y \in \Sigma^*, x R_M y \Leftrightarrow \delta(q_0, x) = \delta(q_0, y)\]

并定义

\[ \mathrm{set}(q) = \{ x | x \in \Sigma^* \wedge \delta(q_0, x) = q \} \]

即 $ \forall x, y \in \Sigma^*, x R_M y \Leftrightarrow \exists q \in Q, x \in \mathrm{set}(q) \wedge y \in \mathrm{set}(q) $

设 $L \subseteq \Sigma^*$，$L$ 在 $\Sigma^*$ 上的关系 $R_L$ 定义为

\[x R_L y \Leftrightarrow (\forall z \in \Sigma^*, xz \in L \Leftrightarrow yz \in L) \]

这两个关系分别是在自动机和语言上的等价关系。

设 $R$ 是 $\Sigma^*$ 上的等价关系，如果 $\forall x, y \in \Sigma^*. xRy \rightarrow (\forall z. xzRyz)$，则称 $R$ 是右不变关系（right invariant）等价关系。

根据上面的定义，不难得出 $R_M$ 和 $R_L$ 是右不变的等价关系。

设 $R$ 是 $\Sigma^*$ 上的等价关系，$\Sigma^*/R$ 的一个元素是 $\Sigma^*$ 关于 $R$ 的一个等价类，称 $|\Sigma^* / R|$ 称为 $R$ 关于 $\Sigma^*$ 的指数（index）。

从定义中不难看出 $x R_M y \Rightarrow x R_{L(M)} y$，反之则未必成立。对于 DFA $M = (Q, \Sigma, \delta, q_0, F)$，有

\[|\Sigma^* / R_{L(M)}| \le |\Sigma^* / R_M| \le |Q| \]

也就是说按照在自动机分出的等价类（自动机的状态数量），数量大于等于在语言分出的等价类（真实的等价类）。$R_M$ 的分类比 $R_{L(M)}$ 的更细，称 $R_M$ 是 $R_{L(M)}$ 的加细（refinement）。

(Myhill-Nerode)

下面的三个命题等价：

$L \subseteq \Sigma^*$ 是 RL
$L$ 是 $\Sigma^*$ 上的一个有穷指数、右不变、等价关系 $R$ 的某些等价类的并
$R_L$ 具有有穷指数

下面通过证明 $(1) \rightarrow (2) \rightarrow (3) \rightarrow(1)$ 来证明。

$(1) \rightarrow (2)$
设 $L \subseteq \Sigma^*$ 是 RL，则存在 DFA $M(Q, \Sigma, \delta, q_0, F)$ 使得 $L(M) = L$。令关系 $R = R_M$。
- 由前面的定义知 $R_M$ 是 $\Sigma^*$ 上的右不变等价关系
- 由 $|\Sigma^* / R_M| \le |Q|$，所以 $R_M$ 具有有穷指数
- 如果 $x \in L$，那么 $\delta(q_0, x) = t \in F$。因此 $\forall x \in L, x \in \mathrm{set}(t) (t \in F)$，所以 $L = \cup_{t \in F}(\mathrm{set}(t))$ 即 $L$ 是 $R$ 的某些等价类的并
$(2) \rightarrow (3)$，因此需要证明 $R$ 是 $R_L$ 的加细，即需要证明 $ \forall x, y \in \Sigma^*. x R y \rightarrow x R_L y $
由于 $R$ 是右不变的，所以 $\forall z \in \Sigma^*. xz R yz$。
又由于 $L$ 是 $R$ 的部分等价类的并，因此 $xz \in L \Leftrightarrow yz \in L$。
所以 $x R_L y$。
$(3) \rightarrow (1)$ 设 $R_L$ 具有有穷指数，下证存在 DFA $M$ 使得 $L(M) = L$。
令 $M = (\Sigma^* / R_L, \Sigma, \delta, [\varepsilon], \{[x] | x \in L\})$，其中 $[x]$ 表示 $x$ 所在的等价类。
其中对于任意的 $([x], a) \in (\Sigma^* / R_L) \times \Sigma$，有
\[\delta([x], a) = [xa]\]
下面证明 $\delta$ 的相容性（是一个函数），即 $\forall [x], [y] \in (\Sigma*/R_L). [x] = [y] \rightarrow (\forall a \in \Sigma. \delta([x], a) = \delta([y], a))$。
由于 $[x] = [y]$，则 $x R_L y$，又由于 $R_L$ 具有右不变形，所以 $\forall a \in \Sigma. [xa] = [ya]$，成立。因此 $M$ 是一个合法的 DFA。
根据 $R_L$ 的定义，$\forall x \in L. \delta(q_0, x) \in \{[x] | x \in L\}$。

Myhill-Nerode 定理的推论

对任意 RL $L$，在同构意义下，接受 $L$ 的最小 DFA 是唯一的。

设 $L$ 是 RL，其最小 DFA $M = (Q, \Sigma, \delta, q_0, F)$ 满足 $L(M) = L$，显然 $M$ 中不含不可达状态。根据前面的证明，有

\[|\Sigma^* / R_M| \ge |\Sigma^* / R_L|\]

下证 $M$ 与 Myhill-Nerode 定理证明中的 $M’ = (\Sigma^* / R_L, \Sigma, \delta’, [\varepsilon], \{[x] | x \in L\})$ 同构，其中

\[\delta’([x], a) = [xa]\]

定义映射 $f : Q \rightarrow \Sigma^* / R_L$，那么 $\forall q \in Q. \exists x \in \Sigma^*. \delta(q_0, x) = q_x$。令

\[f(q_x) = f(\delta(q_0, x)) = f(\delta’([\epsilon], x)) = [x]\]

这样就建立起来从 $M$ 到 $M’$ 的映射。现在证明 $f$ 是同构映射。

首先证明这是合法的函数，即 $q_x = q_y \Rightarrow \delta’([\varepsilon], x) = \delta’([\varepsilon], y)$
- $q_x = q_y \Leftrightarrow \delta(q_0, x) = \delta(q_0, y) \Leftrightarrow x R_M y \Rightarrow x R_L y \Leftrightarrow [{x}] = [y] \Leftrightarrow \delta’([\varepsilon], x) = \delta’([\varepsilon], y)$
证明单射，即 $q_x \ne q_y \Rightarrow \delta’([\varepsilon], x) \ne \delta’([\varepsilon], y)$
- $q_x \ne q_y \Leftrightarrow \delta(q_0, x) \ne \delta(q_0, y)$，即 $x$ 和 $y$ 在 $\Sigma^*/R_M$ 的不同等价类中
- 如果此时 $[{x}] = [y]$，那么 $|\Sigma^* / R_M| > |\Sigma^* / R_L|$，这与 $M$ 是最小 DFA 矛盾
- 因此 $[{x}] \ne [y]$，即 $\delta’([\varepsilon], x) \ne \delta’([\varepsilon], y)$
证明满射，即 $\forall [{x}]. \exists q_x \in Q. f(q_x) = [{x}]$
- $\forall x \in L. [{x}] = \delta’([\varepsilon], x) \Leftrightarrow \exists x \in L. \delta(q_0, x) = q_x$
证明同态映射。在自动机中，两个状态 $q \rightarrow p$ 表示为 $\delta(q, a) = p$，因此即需要证明 $\delta(f(q), a) = f(p)$
- 设 $\delta(q_0, x) = q$
- $f(p) = f(\delta(q, a)) = f(\delta(\delta(q_0, x), a)) = f(\delta(q_0, xa)) = [xa]$，成立

综上，最小 DFA 都与唯一的 DFA 同构。

DFA 最小化

根据 Myhill-Nerod 定理的推论，可以知道最小 DFA 是唯一的，并且其每个状态都对应了原来的语言中的一个等价类。因此只要合并原来的 DFA 中所有的等价类即可。

在具体计算时，状态 $\delta’([a_1 a_2 \dots a_n], x) = \delta(a_1, x) \vee \delta(a_2, x) \vee \dots \vee \delta(a_n, x)$。

判定性质

(Decision Property)

一类语言的判定性质（decision property）对应于一个算法，这个算法以某个语言的形式化描述为输入，然后判断这个语言是否满足某些性质。

下面将介绍一系列判定性问题，并给出对应的算法。

Membership Problem

给定字符串 $w$，判定其是否属于某个正则语言 $L$？

模拟语言在 $L$ 对应的的 DFA 上是否接受即可。

Emptiness Problem

给定一个正则语言 $L$，问该语言是否为空？

构建该语言对应的 DFA，判定终点是否可达即可。

设 DFA $M = (Q, \Sigma, \delta, q_0, F)$，$L = L(M)$ 是否为空的充要条件为

\[\exists x \in \Sigma^{*}. |x| < |Q| \wedge \delta(q_0, x) \in F\]

Infiniteness Problem

给定一个正则语言 $L$，问该语言是否无穷（该语言是否可以描述无穷的字符串）？

构建该语言的 DFA

删除所有起点不可达状态
删除所有不可达终点的状态
判断图上是否有环

设 DFA $M = (Q, \Sigma, \delta, q_0, F)$，$L = L(M)$ 是否无穷的充要条件为

\[\exists x \in \Sigma^{*}. |Q| \le |x| < 2|Q| \wedge \delta(q_0, x) \in F\]

Equivalence Problem

(Product DFA)

对于两个 DFA $M_1 = (Q_1, \Sigma, \delta_1, q_{01}, F_1)$ 和 $M_2 = (Q_2, \Sigma, \delta_2, q_{02}, F_2)$，定义其乘积 DFA（product DFA） $M_1 M_2 = (Q_1 \times Q_2, \Sigma \times \Sigma, \delta_3, [q_{01}, q_{02}], F_3)$

其中

$\delta_3([x, y], a) = [\delta_1(x, a), \delta_2(y, a)]$
$F_3 = \{[x, y] | (x \in F_1) \oplus (y \in F_2)\}$

给定两个正则语言 $L_1, L_2$，问两个语言是否等价？

构建两个语言对应的 DFA 的 product DFA，如果 product DFA 的语言为空（不存在一个句子其中一个自动机接受而另一个不接受），则说明两个语言等价。

Containment Problem

给定两个正则语言 $L_1, L_2$，问是否存在 $L_1 \in L_2$？

同样使用乘积自动机，将终止条件改为：

\[F_3 = \{[x, y] | (x \in F_1) \wedge (y \notin F_2)\}\]

假设这个乘积自动机存在终止状态，那么说明存在一个 $z \in L_1 \wedge z \notin L_2$。此时原命题不成立；反之乘积自动机为空原命题成立。

封闭性

(Closure Property)

一类语言的闭包性质（closure property）指给定这个语言类的一些语言，对于这些语言进行某个操作得到的另一个语言依旧在同一个语言类中。

保持封闭性的运算

正则语言在拼接、并、克林闭包下是封闭的。

可以转换成正则表达式，然后直接用正则表达式表达出来。

正则语言在交集、差集、补集下是封闭的。

利用乘积自动机

交集：构建乘积自动机，其中终止状态 $F_3 = \{[x, y] | x \in F_1 \wedge y \in F_2\}$
差集：构建乘积自动机，其中终止状态 $F_3 = \{[x, y] | x \in F_1 \wedge y \notin F_2\}$
补集：正则语言 $L$ 的补集为 $\Sigma^* - L$，由于 $\Sigma^*$ 是正则语言，因此 $L$ 的补集也是正则语言

正则语言在逆操作（即字符串反转）下封闭。

利用正则表达式证明。设 RL $L$ 的正则表达式为 $E$，下面构建它的逆 $E^R$：

如果 $E$ 是字符 $a \in \Sigma$ 或 $\varepsilon$ 或 $\emptyset$，那么 $E^R = E$
如果 $E = F + G$，那么 $E^R = F^R + G^R$
如果 $E = FG$，那么 $E^R = (FG)^R = G^R F^R$
如果 $E = F^*$，那么 $E^R = (F^R)^*$

根据上面的规则构建的 $E^R$ 依然是正则表达式，因此 $E^R$ 仍然是 RL。

封闭性可以用来做反证，证明某个语言不是 RL。

令 $L_1 = \{x | \text{$x$ contains equal numbers of $0$ and $1$}\}$，证明 $L_1$ 不是正则语言。

令 $L_2 = \{0^n 1^n | n \ge 0\}$，由泵引理知 $L_2$ 不是正则语言。

令 $L_3 = \{0^*1^*\}$，显然 $L_3$ 也是正则语言

假如 $L_1$ 是正则语言，那么 $L_2 = L_1 \cap L_3$ 也是正则语言，矛盾。因此原命题成立。

正则代换

(正则代换)

设 $\Sigma, \Delta$ 是两个字母表，映射

\[f : \Sigma \rightarrow 2^{\Delta^*}\]

称为是从 $\Sigma$ 到 $\Delta$ 的代换（substitution），其中 $2^{\Delta^*}$ 表示 $\Delta$ 上的语言组成的集合，$f$ 能将一个字母映射到一个语言。

$f$ 的定义域可以扩展到字符串集合 $\Sigma^*$ 上，对于 $f : \Sigma^* \rightarrow 2^{\Delta^*}$，满足

\[f(s)=\begin{cases} \{\varepsilon\}, & s = \varepsilon \\ f(x) f(a), & s = xa \end{cases}\]

最后，$f$ 的定义域可以扩展到语言集合 $2^{\Sigma^*}$ 上，对于 $f : 2^{\Sigma^*} \rightarrow 2^{\Delta^*}$，满足

\[f(L) = \bigcup_{x \in L} f(x)\]

定义域相当于一个大自动机（对于字符串来说是相当于是自动机上的一条路径），然后使用正则代换将这个大自动机中的每个小节点都替换成一个自动机。

例如设 $\Sigma = \{0, 1\}, \Delta = \{a, b\}, f(0) = a, f(1) = b^*$，则

$f(010) = f(0)f(1)f(0) = ab^*a$
$f(L(0^*(0+1)1^*) = L(a*(a+b^*(b^*)^*))) = L(a^*b^*)$

设 $\Sigma, \Delta$ 是两个字母表，映射 $f : \Sigma \rightarrow 2^{\Delta^*}$。如果对于 $\forall a \in \Sigma$，$f(a)$ 都是 $\Delta$ 上的 RL，则称 $f$ 是正则代换（regular substitution）。

可将 $f$ 进行扩展 $f : 2^{\Sigma^*} \rightarrow 2^{\Delta^*}$：

$f(\emptyset) = \emptyset, f(\varepsilon) = \varepsilon$
$\forall a \in \Sigma, f(a)$ 是正则表达式
如果 $r, s$ 是 $\Sigma$ 上的正则表达式，则 $f(r + s) = f( r) + f(s), f(rs) = f( r)f(s), f(r^*) = f( r)^*$

设 $\Sigma, \Delta$ 是两个字母表，映射 $f : \Sigma \rightarrow 2^{\Delta^*}$ 是正则代换，则 $f(L)$ 也是 RL。

使用归纳法，对 $L$ 对应的正则表达式 $r$ 进行归纳易证。

同态映射

设 $\Sigma, \Delta$ 是两个字母表，映射 $f : \Sigma \rightarrow \Delta^*$，如果扩展到 $f : \Sigma^* \rightarrow \Delta^*$ 上后有

\[\forall x, y \in \Sigma^*. f(xy) = f(x) f(y)\]

则称 $f$ 是从 $\Sigma^*$ 到 $\Delta^*$ 的同态映射（homomorphism）。

对于 $L \subseteq \Sigma^*$，其同态像为 $f(L) = \bigcup_{x \in L}f(x)$
对于 $w \subseteq \Delta^*$，其同态原像（逆同态）为一个集合 $f^{-1}(w) = \{x | f(x) = w \wedge x \in \Sigma^*\}$

此处，注意 $f(f^{-1}(L)) \ne L$，因为有可能 $\exists x \in L, \forall y \in \Sigma^{*}, f(y) \ne x$，但是一定有 $f(f^{-1}(L)) \subseteq L$。

同态映射是正则代换的特例（同态映射可以看成令正则代换的值域为只包含一个句子的语言，那么这个语言一定是正则语言）。

RL 的同态像是 RL。

由于同态映射是正则代换的特例，因此这个显然成立。

RL 的同态原像是 RL。

设同态映射 $f : \Sigma^* \rightarrow \Delta^*$。DFA $M(Q, \Delta, \delta, q_0, F)$，$L(M) = L$。

则 DFA $M’(Q, \Sigma, \delta’, q_0, F)$，其中

\[\delta’(q, a) = \delta(q, f(a))\]

要证明 $L(M) = L(M’)$，即证明 $\delta’(q_0, x) \in F \Leftrightarrow \delta(q_0, f(x)) \in F$。

下面先证明 $\delta(q_0, f(x)) = \delta’(q_0, x)$，对 $|x|$ 进行归纳：

$|x| = 0$，显然成立
设 $|x| = |y| = k$ 的时候成立，那么当 $|x| = |ya| = k + 1$ 时，
\[\delta(q_0, x) = \delta’(q_0, ya) = \delta’(\delta’(q_0, y), a) = \delta(\delta(q_0, f(y)), f(a)) = \delta(q_0, f(y)f(a)) = \delta(q_0, f(x))\]

由归纳知原命题成立，因此 $\delta’(q_0, x) \in F \Leftrightarrow \delta(q_0, f(x)) \in F$，即原命题成立。

商

(商)

设 $L_1, L_2 \subseteq \Sigma^*$，则商（quotient）定义为

\[L_1 / L_2 = \{ x | \exists y \in L_2, xy \in L_1 \}\]

从定义可以看出，计算商主要考虑一个语言是否为另一个语言的后缀。

设 $L_1, L_2 \subseteq \Sigma^*$，如果 $L_1$ 是 RL，那么 $L_1 / L_2$ 也是 RL。

注意此处并不要求 $L_2$ 是 RL。

设 $L_1$ 对应的 DFA 为 $M(Q, \Sigma, \delta, q_0, F)$。定义 \(M_2(Q, Σ, δ, q_0, F’)，其中

\[F’ = \{q | \exists y \in L_2, \delta(q, y) \in F\}\]

显然 $L(M’) = L_1 / L_2$