立即注册
 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
广州大学城网业务调整

[服务器] 正则表达式详解(包括:正则表达式基础,正则表达式实例讲 [复制链接] qrcode

查看: 16268 | 回复: 5

小五
发表于: 2010-6-26 12:48:36 | 显示全部楼层

正则表达式基础知识
  
我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串,搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”都可以匹配。  
  
1.1 句点符号
假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符.
  
1.2 方括号符号  
为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因为在方括号之内你只能匹配单个字符.  

1.3 “或”符号
如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组,具体请参见后面介绍。  
  
1.4 表示匹配次数的符号  
表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数:  
01.jpg

假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。  

02.gif
图一:匹配所有123-12-1234形式的社会安全号码

假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:  

03.gif   
图二:匹配所有123-12-1234和123121234形式的社会安全号码

下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。  

   04.gif
图三:匹配典型的美国汽车牌照号码,如8836KV

1.5 “否”符号  
“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。例如,图四的正则表达式匹配所有单词,但以“X”字母开头的单词除外。  

05.gif   
图四:匹配所有单词,但“X”开头的除外

1.6 圆括号和空白符号  
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:  

   06.gif
图五:匹配所有Moth DD,YYYY格式的日期

新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组,然后用ORO API(请参考广州大学城网相关文章,在此只说明创建组的方法,不深入说明.)提取出它的值。修改后的正则表达式如图六所示:  

   07.gif
图六:匹配所有Month DD,YYYY格式的日期,定义月份值为第一个组

1.7 其它符号  
为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。如表二所示:  
02.jpg
表二:常用符号  


例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示:  

09.gif
图七:匹配所有123-12-1234格式的社会安全号码

评分

1

查看全部评分

跳转到指定楼层
小五
发表于: 2010-6-26 12:59:36 | 显示全部楼层

正则表达式口诀

正则其实也势利,削尖头来把钱揣; (指开始符号^和结尾符号$)  
特殊符号认不了,弄个倒杠来引路; (指\\. \\*等特殊符号)
倒杠后面跟小w, 数字字母来表示; (\\w跟数字字母;\\d跟数字)
倒杠后面跟小d, 只有数字来表示;
倒杠后面跟小a, 报警符号嘀一声;   
倒杠后面跟小b, 单词分界或退格;  
倒杠后面跟小t, 制表符号很明了;   
倒杠后面跟小r, 回车符号知道了;   
倒杠后面跟小s, 空格符号很重要;
小写跟罢跟大写,多得实在不得了!
gzuc
发表于: 2010-6-26 13:56:16 | 显示全部楼层

正则表达式实例讲解

下面以JS正则表达式为例,详细讲解正则表达式


//校验是否全由数字组成
  1. function isDigit(s)
  2. {
  3. var patrn=/^[0-9]{1,20}$/;
  4. if (!patrn.exec(s)) return false
  5. return true
  6. }
复制代码

//校验登录名:只能输入5-20个以字母开头、可带数字、“_”、“.”的字串
  1. function isRegisterUserName(s)
  2. {
  3. var patrn=/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/;
  4. if (!patrn.exec(s)) return false
  5. return true
  6. }
复制代码

//校验用户姓名:只能输入1-30个以字母开头的字串
  1. function isTrueName(s)
  2. {
  3. var patrn=/^[a-zA-Z]{1,30}$/;
  4. if (!patrn.exec(s)) return false
  5. return true
  6. }
  7. }}
  8. //校验密码:只能输入6-20个字母、数字、下划线
  9. <PRE class=java name="code">function isPasswd(s)
  10. {
  11. var patrn=/^(\\w){6,20}$/;
  12. if (!patrn.exec(s)) return false
  13. return true
  14. }
  15. </PRE>
  16. <BR>
  17. <BR>//校验普通电话、传真号码:可以“+”开头,除数字外,可含有“-”
  18. <BR><PRE class=java name="code">function isTel(s)
  19. {
  20. //var patrn=/^[+]{0,1}(\\d){1,3}[ ]?([-]?(\\d){1,12})+$/;
  21. var patrn=/^[+]{0,1}(\\d){1,3}[ ]?([-]?((\\d)|[ ]){1,12})+$/;
  22. if (!patrn.exec(s)) return false
  23. return true
  24. }
  25. </PRE>
  26. <BR>
  27. <BR>//校验手机号码:必须以数字开头,除数字外,可含有“-”
  28. <BR><PRE class=java name="code">function isMobil(s)
  29. {
  30. var patrn=/^[+]{0,1}(\\d){1,3}[ ]?([-]?((\\d)|[ ]){1,12})+$/;
  31. if (!patrn.exec(s)) return false
  32. return true
  33. }
  34. </PRE>
  35. <BR>
  36. <BR>//校验邮政编码
  37. <BR><PRE class=java name="code">function isPostalCode(s)
  38. {
  39. //var patrn=/^[a-zA-Z0-9]{3,12}$/;
  40. var patrn=/^[a-zA-Z0-9 ]{3,12}$/;
  41. if (!patrn.exec(s)) return false
  42. return true
  43. }
  44. </PRE>
  45. <BR>
  46. <BR>//校验搜索关键字
  47. <BR><PRE class=java name="code">function isSearch(s)
  48. {
  49. var patrn=/^[^`~!@#$%^&*()+=|\\\\\\][\\]\\{\\}:;'\\,.<>/?]{1}[^`~!@$%^&()+=|\\\\\\]
  50.         [\\]\\{\\}:;'\\,.<>?]{0,19}$/;
  51. if (!patrn.exec(s)) return false
  52. return true
  53. }
  54. function isIP(s) //by zergling
  55. {
  56. var patrn=/^[0-9.]{1,20}$/;
  57. if (!patrn.exec(s)) return false
  58. return true
  59. }
  60. </PRE>
  61. <BR>
  62. <BR><SPAN style="FONT-SIZE: 18pt">正则表达式</SPAN>
  63. <BR><PRE class=java name="code">"^\\\\d+$"  //非负整数(正整数 + 0)
  64. "^[0-9]*[1-9][0-9]*$"  //正整数
  65. "^((-\\\\d+)|(0+))$"  //非正整数(负整数 + 0)
  66. "^-[0-9]*[1-9][0-9]*$"  //负整数
  67. "^-?\\\\d+$"    //整数
  68. "^\\\\d+(\\\\.\\\\d+)?$"  //非负浮点数(正浮点数 + 0)
  69. "^(([0-9]+\\\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\\\.[0-9]+)|([0-9]*[1-9][0-9]*))$" 
  70. //正浮点数
  71. "^((-\\\\d+(\\\\.\\\\d+)?)|(0+(\\\\.0+)?))$"  //非正浮点数(负浮点数 + 0)
  72. "^(-(([0-9]+\\\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$" 
  73. //负浮点数
  74. "^(-?\\\\d+)(\\\\.\\\\d+)?$"  //浮点数
  75. "^[A-Za-z]+$"  //由26个英文字母组成的字符串
  76. "^[A-Z]+$"  //由26个英文字母的大写组成的字符串
  77. "^[a-z]+$"  //由26个英文字母的小写组成的字符串
  78. "^[A-Za-z0-9]+$"  //由数字和26个英文字母组成的字符串
  79. "^\\\\w+$"  //由数字、26个英文字母或者下划线组成的字符串
  80. "^[\\\\w-]+(\\\\.[\\\\w-]+)*@[\\\\w-]+(\\\\.[\\\\w-]+)+$"    //email地址
  81. "^[a-zA-z]+://(\\\\w+(-\\\\w+)*)(\\\\.(\\\\w+(-\\\\w+)*))*(\\\\?\\\\S*)?$"  //url
  82. "^[A-Za-z0-9_]*$"
  83. </PRE>
  84. <BR>
  85. <BR><SPAN style="FONT-SIZE: 18pt">正则表达式使用详解</SPAN>
  86. <BR>
  87. <BR>简介
  88. <BR>
  89. <BR>简单的说,正则表达式是一种可以用于模式匹配和替换的强有力的工具。其作用如下:
  90. <BR>测试字符串的某个模式。例如,可以对一个输入字符串进行测试,看在该字符串是否存在一个电话号码模式或一个信用卡号码模式。这称为数据有效性验证。
  91. <BR>替换文本。可以在文档中使用一个正则表达式来标识特定文字,然后可以全部将其删除,或者替换为别的文字。
  92. <BR>根据模式匹配从字符串中提取一个子字符串。可以用来在文本或输入字段中查找特定文字。
  93. <BR>
  94. <BR>基本语法
  95. <BR>
  96. <BR>在对正则表达式的功能和作用有了初步的了解之后,我们就来具体看一下正则表达式的语法格式。
  97. <BR>
  98. <BR>正则表达式的形式一般如下:  
  99. <BR>
  100. <BR>/love/  其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
  101. <BR>较为常用的元字符包括: “+”, “*”,以及 “?”。
  102. <BR>
  103. <BR>“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次。
  104. <BR>
  105. <BR>“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次。
  106. <BR>
  107. <BR>“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。
  108. <BR>
  109. <BR>下面,就让我们来看一下正则表达式元字符的具体应用。
  110. <BR>
  111. <BR>/fo+/  因为上述正则表达式中包含“+”元字符,表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。
  112. <BR>
  113. <BR>/eg*/  因为上述正则表达式中包含“*”元字符,表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。
  114. <BR>
  115. <BR>/Wil?/  因为上述正则表达式中包含“?”元字符,表示可以与目标对象中的 “Win”, 或者“Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。
  116. <BR>
  117. <BR>有时候不知道要匹配多少字符。为了能适应这种不确定性,正则表达式支持限定符的概念。这些限定符可以指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。
  118. <BR>
  119. <BR>{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
  120. <BR>
  121. <BR>{n,} n 是一个非负整数。至少匹配 n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
  122. <BR>
  123. <BR>{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
  124. <BR>
  125. <BR>除了元字符之外,用户还可以精确指定模式在匹配对象中出现的频率。例如,/jim {2,6}/ 上述正则表达式规定字符m可以在匹配对象中连续出现2-6次,因此,上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。
  126. <BR>在对如何使用正则表达式有了初步了解之后,我们来看一下其它几个重要的元字符的使用方式。
  127. <BR><PRE class=java name="code">\\s:用于匹配单个空格符,包括tab键和换行符;
  128. \\S:用于匹配除单个空格符之外的所有字符;
  129. \\d:用于匹配从0到9的数字;
  130. \\w:用于匹配字母,数字或下划线字符;
  131. \\W:用于匹配所有与\\w不匹配的字符;
  132. . :用于匹配除换行符之外的所有字符。
  133. </PRE>
  134. <BR>(说明:我们可以把\\s和\\S以及\\w和\\W看作互为逆运算)
  135. <BR>下面,我们就通过实例看一下如何在正则表达式中使用上述元字符。
  136. <BR>/\\s+/ 上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。
  137. <BR>/\\d000/ 如果我们手中有一份复杂的财务报表,那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。
  138. <BR>除了我们以上所介绍的元字符之外,正则表达式中还具有另外一种较为独特的专用字符,即定位符。定位符用于规定匹配模式在目标对象中的出现位置。 较为常用的定位符包括: “^”, “$”, “\\b” 以及 “\\B”。
  139. <BR><PRE class=java name="code">“^”定位符规定匹配模式必须出现在目标字符串的开头
  140. “$”定位符规定匹配模式必须出现在目标对象的结尾
  141. “\\b”定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一
  142. “\\B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内,
  143.       即匹配对象既不能作为目标字符串的开头,也不能作为目标字符串的结尾。
  144. </PRE>
  145. <BR>同样,我们也可以把“^”和“$”以及“\\b”和“\\B”看作是互为逆运算的两组定位符。举例来说: /^hell/ 因为上述正则表达式中包含“^”定位符,所以可以与目标对象中以 “hell”, “hello”或“hellhound”开头的字符串相匹配。 /ar$/ 因为上述正则表达式中包含“$”定位符,所以可以与目标对象中以 “car”, “bar”或 “ar” 结尾的字符串相匹配。 /\\bbom/ 因为上述正则表达式模式以“\\b”定位符开头,所以可以与目标对象中以 “bomb”, 或 “bom”开头的字符串相匹配。/man\\b/ 因为上述正则表达式模式以“\\b”定位符结尾,所以可以与目标对象中以 “human”, “woman”或 “man”结尾的字符串相匹配。
  146. <BR>为了能够方便用户更加灵活的设定匹配模式,正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。例如:
  147. <BR><PRE class=java name="code">/[A-Z]/  上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
  148. /[a-z]/  上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
  149. /[0-9]/  上述正则表达式将会与从0到9范围内任何一个数字相匹配。
  150. /([a-z][A-Z][0-9])+/ 上述正则表达式将会与任何由字母和数字组成的字符串,如 “aB0” 等相匹配。
  151. </PRE>
  152. <BR>这里需要提醒用户注意的一点就是可以在正则表达式中使用 “()” 把字符串组合在一起。“()”符号包含的内容必须同时出现在目标对象中。因此,上述正则表达式将无法与诸如 “abc”等的字符串匹配,因为“abc”中的最后一个字符为字母而非数字。
  153. <BR>如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算,在多个不同的模式中任选一个进行匹配的话,可以使用管道符 “|”。例如:/to|too|2/ 上述正则表达式将会与目标对象中的 “to”, “too”, 或 “2” 相匹配。
  154. <BR>正则表达式中还有一个较为常用的运算符,即否定符 “[^]”。与我们前文所介绍的定位符 “^” 不同,否定符 “[^]”规定目标对象中不能存在模式中所规定的字符串。例如:/[^A-C]/ 上述字符串将会与目标对象中除A,B,和C之外的任何字符相匹配。一般来说,当“^”出现在 “[]”内时就被视做否定运算符;而当“^”位于“[]”之外,或没有“[]”时,则应当被视做定位符。
  155. <BR>最后,当用户需要在正则表达式的模式中加入元字符,并查找其匹配对象时,可以使用转义符“\\”。例如:/Th\\*/  上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。
  156. <BR>在构造正则表达式之后,就可以象数学表达式一样来求值,也就是说,可以从左至右并按照一个优先级顺序来求值。优先级如下:
  157. <BR><PRE class=java name="code">1.\\ 转义符
  158. 2.(), (?:), (?=), [] 圆括号和方括号
  159. 3.*, +, ?, {n}, {n,}, {n,m} 限定符
  160. 4.^, $, \\anymetacharacter 位置和顺序
  161. 5.|“或”操作
  162. </PRE>
  163. <BR>
  164. <BR><SPAN style="FONT-SIZE: 18pt">使用实例</SPAN>
  165. <BR>在JavaScript 1.2中带有一个功能强大的RegExp()对象,可以用来进行正则表达式的匹配操作。其中的test()方法可以检验目标对象中是否包含匹配模式,并相应的返回true或false。
  166. <BR>我们可以使用JavaScript编写以下脚本,验证用户输入的邮件地址的有效性。
  167. <BR><PRE class=java name="code"><html>
  168. <head>
  169.   <script language="Javascript1.2">
  170.      <!-- start hiding
  171.      function verifyAddress(obj)
  172.      {
  173.       var email = obj.email.value;
  174.       var pattern =
  175. /^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\\.[a-zA-Z0-9_-])+/;
  176.       flag = pattern.test(email);
  177.       if(flag)
  178.       {
  179.        alert(“Your email address is correct!”);
  180.        return true;
  181.       }
  182.       else
  183.        {
  184.         alert(“Please try again!”);
  185.         return false;
  186.         }
  187.       }
  188.      // stop hiding -->
  189.     </script>
  190.   </head>
  191.   <body>
  192.    <form onSubmit="return verifyAddress(this);">
  193.     <input name="email" type="text">
  194.     <input type="submit">
  195.     </form>
  196.   </body>
  197. </html>
  198. </PRE>
  199. <BR>
  200. <BR><SPAN style="FONT-SIZE: 18pt">正则表达式对象</SPAN>
  201. <BR>本对象包含正则表达式模式以及表明如何应用模式的标志。
  202. <BR><PRE class=java name="code">语法 1 re = /pattern/[flags]
  203. 语法 2 re = new RegExp("pattern",["flags"])
  204. </PRE>
  205. <BR>参数
  206. <BR>re
  207. <BR>必选项。将要赋值为正则表达式模式的变量名。
  208. <BR>
  209. <BR>Pattern
  210. <BR>必选项。要使用的正则表达式模式。如果使用语法 1,用 "/" 字符分隔模式。如果用语法 2,用引号将模式引起来。
  211. <BR>
  212. <BR>Flags
  213. <BR>可选项。如果使用语法 2 要用引号将 flag 引起来。标志可以组合使用,可用的有:
  214. <BR><PRE class=java name="code">g (全文查找出现的所有 pattern)
  215. i (忽略大小写)
  216. m (多行查找)
  217. </PRE>
  218. <BR>
  219. <BR><SPAN style="FONT-SIZE: 18pt">示例</SPAN>
  220. <BR>下面的示例创建一个包含正则表达式模式及相关标志的对象(re),向您演示正则表达式对象的用法。在本例中,作为结果的正则表达式对象又用于 match 方法中:
  221. <BR><PRE class=java name="code">function MatchDemo()
  222. {
  223. var r, re; // 声明变量。
  224. var s = "The rain in Spain falls mainly in the plain";
  225. re = new RegExp("ain","g"); // 创建正则表达式对象。
  226. r = s.match(re); // 在字符串 s 中查找匹配。
  227. return(r);
  228. }
  229. </PRE>
  230. <BR>
  231. <BR>返回值: ain,ain,ain,ain\\\\
  232. <BR>属性 lastIndex 属性 | source 属性\\\\
  233. <BR>方法 compile 方法 | exec 方法 | test 方法\\\\
  234. <BR>要求 版本 3\\\\
  235. <BR>请参阅 RegExp 对象 | 正则表达式语法 | String 对象\\\\
  236. <BR>
  237. <BR><SPAN style="FONT-SIZE: 18pt">exec 方法</SPAN>
  238. <BR>用正则表达式模式在字符串中运行查找,并返回包含该查找结果的一个数组。
  239. <BR>rgExp.exec(str)
  240. <BR>
  241. <BR>参数
  242. <BR>
  243. <BR>rgExp
  244. <BR>必选项。包含正则表达式模式和可用标志的正则表达式对象。
  245. <BR>
  246. <BR>str
  247. <BR>必选项。要在其中执行查找的 String 对象或字符串文字。
  248. <BR>
  249. <BR>说明\\\\
  250. <BR>如果 exec 方法没有找到匹配,则它返回 null。如果它找到匹配,则 exec 方法返回一个数组,并且更新全局 RegExp 对象的属性,以反映匹配结果。数组的0元素包含了完整的匹配,而第1到n元素中包含的是匹配中出现的任意一个子匹配。这相当于没有设置全局标志 (g) 的 match 方法。
  251. <BR>如果为正则表达式设置了全局标志,exec 从以 lastIndex 的值指示的位置开始查找。如果没有设置全局标志,exec 忽略 lastIndex 的值,从字符串的起始位置开始搜索。
  252. <BR>
  253. <BR>exec 方法返回的数组有三个属性,分别是 input、index 和 lastIndex。Input 属性包含了整个被查找的字符串。Index 属性中包含了整个被查找字符串中被匹配的子字符串的位置。LastIndex 属性中包含了匹配中最后一个字符的下一个位置。
  254. <BR>
  255. <BR>示例\\\\
  256. <BR>下面的例子举例说明了 exec 方法的用法:
  257. <BR><PRE class=java name="code">function RegExpTest()
  258. {
  259. var ver = Number(ScriptEngineMajorVersion() + "." + ScriptEngineMinorVersion())
  260. if (ver >= 5.5){ // 测试 JScript 的版本。
  261. var src = "The rain in Spain falls mainly in the plain.";
  262. var re = /\\w+/g; // 创建正则表达式模式。
  263. var arr;
  264. while ((arr = re.exec(src)) != null)
  265. document.write(arr.index + "-" + arr.lastIndex + arr + "\\t");
  266. }
  267. else{
  268. alert("请使用 JScript 的更新版本");
  269. }
  270. }
  271. </PRE>
  272. <BR>
  273. <BR>返回值:0-3The 4-8rain 9-11in 12-17Spain 18-23falls 24-30mainly 31-33in 34-37the 38-43plain
  274. <BR>
  275. <BR>test 方法\\\\
  276. <BR>返回一个 Boolean 值,它指出在被查找的字符串中是否存在模式。
  277. <BR>rgexp.test(str)
  278. <BR>
  279. <BR>参数\\\\
  280. <BR>rgexp
  281. <BR>必选项。包含正则表达式模式或可用标志的正则表达式对象。
  282. <BR>
  283. <BR>str
  284. <BR>必选项。要在其上测试查找的字符串。
  285. <BR>
  286. <BR>说明
  287. <BR>test 方法检查在字符串中是否存在一个模式,如果存在则返回 true,否则就返回 false。
  288. <BR>全局 RegExp 对象的属性不由 test 方法来修改。
  289. <BR>
  290. <BR>示例
  291. <BR>下面的例子举例说明了 test 方法的用法:
  292. <BR><PRE class=java name="code">function TestDemo(re, s)
  293. {
  294. var s1; // 声明变量。
  295. // 检查字符串是否存在正则表达式。
  296. if (re.test(s)) // 测试是否存在。
  297. s1 = " contains "; // s 包含模式。
  298. else
  299. s1 = " does not contain "; // s 不包含模式。
  300. return("'" + s + "'" + s1 + "'"+ re.source + "'"); // 返回字符串。
  301. }
  302. </PRE>
  303. <BR>
  304. <BR>函数调用:document.write (TestDemo(/ain+/ ,"The rain in Spain falls mainly in the plain."));
  305. <BR>
  306. <BR>返回值:'The rain in Spain falls mainly in the plain.' contains 'ain+'
  307. <BR>
  308. <BR><SPAN style="FONT-SIZE: 18pt">match 方法</SPAN>
  309. <BR>使用正则表达式模式对字符串执行查找,并将包含查找的结果作为数组返回。\\\\
  310. <BR>stringObj.match(rgExp)
  311. <BR>
  312. <BR>参数\\\\
  313. <BR>stringObj
  314. <BR>必选项。对其进行查找的 String 对象或字符串文字。
  315. <BR>
  316. <BR>rgExp
  317. <BR>必选项。为包含正则表达式模式和可用标志的正则表达式对象。也可以是包含正则表达式模式和可用标志的变量名或字符串文字。
  318. <BR>
  319. <BR>说明\\\\
  320. <BR>如果 match 方法没有找到匹配,返回 null。如果找到匹配返回一个数组并且更新全局 RegExp 对象的属性以反映匹配结果。
  321. <BR>match 方法返回的数组有三个属性:input、index 和 lastIndex。Input 属性包含整个的被查找字符串。Index 属性包含了在整个被查找字符串中匹配的子字符串的位置。LastIndex 属性包含了最后一次匹配中最后一个字符的下一个位置。
  322. <BR>如果没有设置全局标志 (g),数组的 0 元素包含整个匹配,而第 1 到 n 元素包含了匹配中曾出现过的任一个子匹配。这相当于没有设置全局标志的 exec 方法。如果设置了全局标志,元素 0 到 n 中包含所有匹配。
  323. <BR>
  324. <BR>示例\\\\
  325. <BR>下面的示例演示了match 方法的用法:
  326. <BR><PRE class=java name="code">function MatchDemo()
  327. {
  328. var r, re; // 声明变量。
  329. var s = "The rain in Spain falls mainly in the plain";
  330. re = /ain/i; // 创建正则表达式模式。
  331. r = s.match(re); // 尝试匹配搜索字符串。
  332. return(r); // 返回第一次出现 "ain" 的地方。
  333. }
  334. </PRE>
  335. <BR>返回值:ain
  336. <BR>
  337. <BR>本示例说明带 g 标志设置的 match 方法的用法。
  338. <BR><PRE class=java name="code">function MatchDemo()
  339. {
  340. var r, re; // 声明变量。
  341. var s = "The rain in Spain falls mainly in the plain";
  342. re = /ain/ig; // 创建正则表达式模式。
  343. r = s.match(re); // 尝试去匹配搜索字符串。
  344. return(r); // 返回的数组包含了所有 "ain"
  345. // 出现的四个匹配。
  346. }
  347. </PRE>
  348. <BR>返回值:ain,ain,ain,ain
  349. <BR>
  350. <BR>上面几行代码演示了字符串文字的 match 方法的用法。
  351. <BR><PRE class=java name="code">var r, re = "Spain";
  352. r = "The rain in Spain".replace(re, "Canada");
  353. return r;
  354. </PRE>
  355. <BR>返回值:The rain in Canada
  356. <BR>
  357. <BR><SPAN style="FONT-SIZE: 18pt">search 方法</SPAN>
  358. <BR>返回与正则表达式查找内容匹配的第一个子字符串的位置。
  359. <BR>
  360. <BR>stringObj.search(rgExp)
  361. <BR>
  362. <BR>参数\\\\
  363. <BR>stringObj
  364. <BR>必选项。要在其上进行查找的 String 对象或字符串文字。
  365. <BR>
  366. <BR>rgExp
  367. <BR>必选项。包含正则表达式模式和可用标志的正则表达式对象。
  368. <BR>
  369. <BR>说明
  370. <BR>
  371. <BR>search 方法指明是否存在相应的匹配。如果找到一个匹配,search 方法将返回一个整数值,指明这个匹配距离字符串开始的偏移位置。如果没有找到匹配,则返回 -1。
  372. <BR>
  373. <BR>示例\\\\
  374. <BR>下面的示例演示了 search 方法的用法。
  375. <BR><PRE class=java name="code">function SearchDemo()
  376. {
  377. var r, re; // 声明变量。
  378. var s = "The rain in Spain falls mainly in the plain.";
  379. re = /falls/i; // 创建正则表达式模式。
  380. r = s.search(re); // 查找字符串。
  381. return(r); // 返回 Boolean 结果。
  382. }
  383. </PRE>
  384. <BR>返回值:18
  385. <BR>
  386. <BR>
  387. <BR><SPAN style="FONT-SIZE: 18pt">正则表达式语法</SPAN>
  388. <BR>一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
  389. <BR>
  390. <BR>这里有一些可能会遇到的正则表达式示例:
  391. <BR><PRE class=java name="code">JScript VBScript 匹配
  392. /^\\[ \\t]*$/ "^\\[ \\t]*$" 匹配一个空白行。
  393. /\\d{2}-\\d{5}/ "\\d{2}-\\d{5}" 验证一个ID 号码是否由一个2位数字,一个连字符以及一个5位数字组成。
  394. /<(.*)>.*<\\/\\1>/ "<(.*)>.*<\\/\\1>" 匹配一个 HTML 标记。
  395. </PRE>
  396. <BR>
  397. <BR>下表是元字符及其在正则表达式上下文中的行为的一个完整列表:
  398. <BR>
  399. <BR>字符 描述
  400. <BR>\\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 后向引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\\n' 匹配一个换行符。序列 '\\\\' 匹配 "\\" 而 "\\(" 则匹配 "("。
  401. <BR>
  402. <BR>^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\\n' 或 '\\r' 之后的位置。
  403. <BR>
  404. <BR>$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\\n' 或 '\\r' 之前的位置。
  405. <BR>
  406. <BR>* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
  407. <BR>
  408. <BR>+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
  409. <BR>
  410. <BR>? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
  411. <BR>
  412. <BR>{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
  413. <BR>
  414. <BR>{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
  415. <BR>
  416. <BR>{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘, "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
  417. <BR>
  418. <BR>? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
  419. <BR>
  420. <BR>. 匹配除 "\\n" 之外的任何单个字符。要匹配包括 '\\n' 在内的任何字符,请使用象 '[.\\n]' 的模式。
  421. <BR>(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\\(' 或 '\\)'。
  422. <BR>
  423. <BR>(?:pattern) 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
  424. <BR>
  425. <BR>(?=pattern) 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如, 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
  426. <BR>
  427. <BR>(?!pattern) 负向预查,在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
  428. <BR>
  429. <BR>x|y 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
  430. <BR>
  431. <BR>[xyz] 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
  432. <BR>
  433. <BR>[^xyz] 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。
  434. <BR>
  435. <BR>[a-z] 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
  436. <BR>
  437. <BR>[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
  438. <BR>
  439. <BR>\\b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
  440. <BR>
  441. <BR>\\B 匹配非单词边界。'er\\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
  442. <BR>
  443. <BR>\\cx 匹配由x指明的控制字符。例如, \\cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
  444. <BR>
  445. <BR>\\d 匹配一个数字字符。等价于 [0-9]。
  446. <BR>
  447. <BR>\\D 匹配一个非数字字符。等价于 [^0-9]。
  448. <BR>
  449. <BR>\\f 匹配一个换页符。等价于 \\x0c 和 \\cL。
  450. <BR>
  451. <BR>\\n 匹配一个换行符。等价于 \\x0a 和 \\cJ。
  452. <BR>
  453. <BR>\\r 匹配一个回车符。等价于 \\x0d 和 \\cM。
  454. <BR>
  455. <BR>\\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \\f\\n\\r\\t\\v]。
  456. <BR>
  457. <BR>\\S 匹配任何非空白字符。等价于 [^ \\f\\n\\r\\t\\v]。
  458. <BR>
  459. <BR>\\t 匹配一个制表符。等价于 \\x09 和 \\cI。
  460. <BR>
  461. <BR>\\v 匹配一个垂直制表符。等价于 \\x0b 和 \\cK。
  462. <BR>
  463. <BR>\\w 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
  464. <BR>
  465. <BR>\\W 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
  466. <BR>
  467. <BR>\\xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如, '\\x41' 匹配 "A"。'\\x041' 则等价于 '\\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
  468. <BR>
  469. <BR>\\num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\\1' 匹配两个连续的相同字符。
  470. <BR>
  471. <BR>\\n 标识一个八进制转义值或一个后向引用。如果 \\n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
  472. <BR>
  473. <BR>\\nm 标识一个八进制转义值或一个后向引用。如果 \\nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 \\nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \\nm 将匹配八进制转义值 nm。
  474. <BR>
  475. <BR>\\nml 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
  476. <BR>
  477. <BR>\\un 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \\u00A9 匹配版权符号 (?)。
  478. <BR>
  479. <BR>
  480. <BR><SPAN style="FONT-SIZE: 18pt">优先权顺序</SPAN>
  481. <BR>在构造正则表达式之后,就可以象数学表达式一样来求值,也就是说,可以从左至右并按照一个优先权顺序来求值。
  482. <BR>
  483. <BR>下表从最高优先级到最低优先级列出各种正则表达式操作符的优先权顺序:
  484. <BR><PRE class=java name="code">操作符 描述
  485. \\ 转义符
  486. (), (?:), (?=), [] 圆括号和方括号
  487. *, +, ?, {n}, {n,}, {n,m} 限定符
  488. ^, $, \\anymetacharacter 位置和顺序
  489. | “或”操作
  490. </PRE>
  491. <BR>
  492. <BR>普通字符
  493. <BR>
  494. <BR>普通字符由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。
  495. <BR>
  496. <BR>最简单的正则表达式是一个单独的普通字符,可以匹配所搜索字符串中的该字符本身。例如,单字符模式 'A' 可以匹配所搜索字符串中任何位置出现的字母 'A'。这里有一些单字符正则表达式模式的示例:
  497. <BR><PRE class=java name="code">/a/
  498. /7/
  499. /M/
  500. </PRE>
  501. <BR>等价的 VBScript 单字符正则表达式为:
  502. <BR><PRE class=java name="code">"a"
  503. "7"
  504. "M"
  505. </PRE>
  506. <BR>可以将多个单字符组合在一起得到一个较大的表达式。例如,下面的 JScript 正则表达式不是别的,就是通过组合单字符表达式 'a'、'7'以及 'M' 所创建出来的一个表达式。
  507. <BR>
  508. <BR>/a7M/
  509. <BR>等价的 VBScript 表达式为:
  510. <BR>
  511. <BR>"a7M"
  512. <BR>请注意这里没有连接操作符。所需要做的就是将一个字符放在了另一个字符后面。
  513. <BR>
  514. <BR>      
复制代码


注意:测试是否匹配,除了exec方法,还可用test方法。其中exec用于返回包含查找结果的一个数组。具体怎样用,根据需要定.
523066680
发表于: 2010-6-26 22:09:07 | 显示全部楼层

  正则表达式还没学。(=.= 所以写的字符处理脚本都老长的)
看来要学学拉, 顶一下。
gwxiaoyun
发表于: 2010-10-17 16:50:14 | 显示全部楼层

顶一下
lunaya
发表于: 2011-8-4 14:17:15 | 显示全部楼层

Re:正则表达式详解(包括:正则表达式基础,正则表达式实例讲

学习了,谢谢
快速回复 返回顶部 返回列表