2008年3月25日星期二

Xilinx/Virtex-5 DCM problem:the minimum frequence of input clock

I have an input clock of 24MHz and I need to get a 48MHz clock using DCM. During PAR, there were the following warnings:
WARNING:Timing:3325 - Timing Constraint
"TS_CLK24 = PERIOD TIMEGRP "CLK24" 42 ns HIGH 50%;"
fails the maximum period check for input clock clk48_gen/CLKIN_IBUFG_OUT to DCM_ADV clk48_gen_DCM_INST because the period constraint value (42000 ps) exceeds the maximum internal period limit of 31251 ps.Please reduce the period of the constraint to remove this timing failure.
...


That means the minimum input clock of the DCM is about 32MHz (10^6/31251ps=31.998976MHz) while my input clock is only 24MHz. I did not know whether this DCM will operate normally or not. I think the intuitional way is that:output this 48MHz signal/clock and observe it on LAs. My FPGA board will be ready in several days. I will test and then update this blog.

The following is someone's explanation I found in Xilinx/Forum:
These warnings usually indicate that the period constraint specified in your design violates one of the Spec'ed operating ranges in the datasheet for that device (ie, faster than the Max Frequency of a DCM, etc.). This doesn't necessarily mean that it won't work, but it does mean that it's outside of the range that Xilinx has tested and guarantees. You might take a look in the datasheet for the device you're targetting to see if the frequency you're requesting is outside of the range for either it's driver or load.

2007年10月26日星期五

“串行”为什么会走红?[转载]

http://article.ednchina.com/PC/20061008114051.htm
近两年,大家听得最多的一个词可能就是串行传输了。从技术发展的情况来看,串行传输方式大有彻底取代并行传输方式的势头,USB取代 IEEE 1284,SATA取代PATA,PCI Express取代PCI……
  从原理来看,并行传输方式其实优于串行传输方式。通俗地讲,并行传输的通路犹如一条多车道的宽阔大道,而串行传输则是仅能允许一辆汽车通过的乡间公路。以古老而又典型的标准并行口(Standard Parallel Port)和串行口(俗称COM口)为例,并行接口的位宽为8,数据传输率高;而串行接口只有1位,数据传输速度低。在串行口传送1位的时间内,并行口可以传送一个字节。当并行口完成单词“advanced”的传送任务时,串行口中仅传送了这个单词的首字母“a”。

图1:H6A-2-1.TIF 并行接口速度是串行接口的8倍
  那么,现在的串行传输方式为何会更胜一筹呢?
  一、并行传输技术遭遇发展困境
  电脑中的总线和接口是主机与外部设备间传送数据的“大动脉”,随着处理器速度的节节攀升,总线和接口的数据传输速度也需要逐步提高,否则就会成为电脑发展的瓶颈。图2 PC总线的发展
我们先来看看总线的情况。1981年第一台PC中以ISA总线为标志的开放式体系结构,使用了ISA总线,数据总线为8位,工作频率为8.33MHz,这在当时却已经算作“先进技术(Advanced Technology)”了,所以ISA总线还有另一个名字“AT总线”。到了286时,ISA的位宽提高到了16位,为了保持与8位的ISA兼容,工作频率仍为8.33MHz。ISA总线虽然只有16MBps的数据传输率,但直到386时代,都一直是主板与外部设备间最快的数据通道。
  到了486时代,同时出现了PCI和VESA两种更快的总线标准,它们具有相同的位宽(32位),但PCI总线能够与处理器异步运行,当处理器的频率增加时,PCI总线频率仍然能够保持不变,可以选择25MHz、30MHz和33MHz三种频率。而VESA总线与处理器同步工作,因而随着处理器频率的提高,VESA总线类型的外围设备工作频率也得随着提高,适应能力较差,因此很快失去了竞争力。PCI总线标准成为Pentium时代PC总线的王者,硬盘控制器、声卡到网卡,全部使用PCI插槽。而显卡方面对数据传输速度要求更高,出现了专用的AGP,
  并行数据传输技术向来是提高数据传输率的重要手段,但是,进一步发展却遇到了障碍。首先,由于并行传送方式的前提是用同一时序传播信号,用同一时序接收信号,而过分提升时钟频率将难以让数据传送的时序与时钟合拍,布线长度稍有差异,数据就会以与时钟不同的时序送达,另外,提升时钟频率还容易引起信号线间的相互干扰,导致传输错误。因此,并行方式难以实现高速化。从制造成本的角度来说,增加位宽无疑会导致主板和扩充板上的布线数目随之增加,成本随之攀升。
  在外部接口方面,我们知道IEEE 1284并行口的速率可达300kBps,传输图形数据时采用压缩技术可以提高到2MBps,而RS-232C标准串行口的数据传输率通常只有20kbps,并行口的数据传输率无疑要胜出一筹。因此十多年来,并行口一直是打印机首选的连接方式。对于仅传输文本的针式打印机来说,IEEE 1284并行口的传输速度可以说是绰绰有余的。但是,对于近年来一再提速的激光打印机来说,情况发生了变化。笔者使用爱普生6200L在打印2MB图片时,速度差异不甚明显,但在打印7.5MB大小的图片文件时,从点击“打印”到最终出纸,使用USB接口用了18秒,而使用并行口时,用了33秒。这一测试结果说明,现行的并行口对于时下流行的激光打印机来说,已经力难胜任了。
  二、USB,串行接口浴火重生
  凤凰涅槃,浴火重生。1995年,由Compaq、Intel、Microsoft和NEC等几家公司推出的USB接口首次出现在PC机上,1998年起即进入大规模实用阶段,作为IEEE 1284并行口和RS-232C串行口的接班人,USB现在已经呈现出大红大紫了。

USB虽然只有一位的位宽,但数据传输速度却比并行口要高,而且具有很大的发展空间。USB设备通信速率的自适应性,使得它可以自动选择HS(High-Speed,高速,480 Mbps)、FS(Full-Speed,全速,12Mbps)和LS(Low-Speed,低速,1.5Mbps)三种模式中的一种。USB总线还具有自动的设备检测能力,设备插入之后,操作系统软件会自动地检测、安装和配置该设备,免除了增减设备时必须关闭PC机的麻烦。

图3 采用差模信号传送方式的USB 图4 差分传输方式具有更好的抗干扰性能
USB接口之所以能够获得很高的数据传输率,主要是因为其摒弃了常规的单端信号传输方式,转而采用差分信号(differential signal)传输技术,有效地克服了因天线效应对信号传输线路形成的干扰,以及传输线路之间的串扰。USB接口中两根数据线采用相互缠绕的方式,形成了双绞线结构,如图3。
  图4是由两根信号线缠绕在环状铁氧体磁芯上构成的扼流线圈。在单端信号传输方式下,线路受到电磁辐射干扰而产生共模电流时,磁场被叠加变成较高的线路阻抗,这样虽然降低了干扰,但有效信号也被衰减了。而在差动传输模式下,共模干扰被磁芯抵消,但不会产生额外的线路阻抗。换句话说,差动传输方式下使用共模扼流线圈,既能达到抗干扰的目的,又不会影响信号传输。
  差分信号传输体系中,传输线路无需屏蔽即可取得很好的抗干扰性能,降低了连接成本。不过,由于USB接口3.3V的信号电平相对较低,最大通信距离只有5m。USB规范还限制物理层的层数不超过7层,这意味着用户可以通过最多使用5个连接器,将一个USB设备置于距离主机最远为30m的位置。
  为了解决长距离传输问题,扩展USB的应用范围,一些厂商在USB规范上添加了新的功能,例如Powered USB和Extreme USB,前者加大了USB的供电能力,后者延长了USB的传输距离。譬如采用CAT5电缆和RJ45连接器,可以简单地将扩展至100m;采用光纤更可扩展至2km,只是成本比CAT5更高。
小知识:双绞线,绞在一起有什么好?
  双绞线互相缠绕的目的是利用铜线中电流产生的电磁场互相作用抵消邻近线路的干扰并减少来自外界的干扰。每对线在每英寸长度上相互缠绕的次数决定了抗干扰的能力和通讯的质量,缠绕得越紧密其通讯质量越高,所支持的数据传输率越高,制造成本当然也相应提高。双绞线即使外面没有屏蔽层,也能获得很好的抗干扰性能,所以局域网中选用CAT5非屏蔽双绞线(UTP)便能满足传输100Mbps信号的要求,且通信距离可以达到100m。
  三、差分信号技术:高速信号传输的金钥匙
  电脑发展史就是追求更快速度的历史,随着总线频率的提高,所有信号传输都遇到了同样的问题:线路间的电磁干扰越厉害,数据传输失败的发生机率就越高,传统的单端信号传输技术无法适应高速总线的需要。于是差分信号技术就开始在各种高速总线中得到应用,我们已经知道,USB实现高速信号传输的秘诀在于采用了差分信号传输方式。

图5 差分信号传输电路

图6 单端信号传输
图7 差分信号传输
差分信号传输技术是20世纪90年代出现的一种数据传输和接口技术,与传统的单端传输方式相比,这种技术具有低功耗、低误码率、低串扰和低辐射等特点,其传输介质可以是铜质的PCB连线,也可以是平衡电缆,最高传输速率可达1.923Gbps。Intel倡导的第三代I/O技术(3GIO),其物理层的核心技术就是差分信号技术。那么,差分信号技术究竟是怎么回事呢?
  我们知道,在传统的单端(Single-ended)通信中,一条线路来传输一个比特位。高电平表示1,低电平表示0。倘若在数据传输过程中受到干扰,高低电平信号完全可能因此产生突破临界值的大幅度扰动,一旦高电平或低电平信号超出临界值,信号就会出错,如图6所示。 在差分传输电路中,输出电平为正电压时表示逻辑“1”,输出负电压时表示逻辑“0”,而输出“0”电压是没有意义的,它既不代表“1”,也不代表“0”。而在图7所示的差分通信中,干扰信号会同时进入相邻的两条信号线中,在信号接收端,两个相同的干扰信号分别进入差分放大器的两个反相输入端后,输出电压为0。所以说,差分信号技术对干扰信号具有很强的免疫力。对于串行传输来说,LVDS能够低于外来干扰;而对于并行传输来说,LVDS可以不仅能够抵御外来干扰,还能够抵御数据传输线之间的串扰。
  因为上述原因,实际电路中只要使用低压差分信号(Low Voltage Differential Signal,LVDS),350mV左右的振幅便能满足近距离传输的要求。假定负载电阻为100Ω,采用LVDS方式传输数据时,如果双绞线长度为10m,传输速率可达400 Mbps;当电缆长度增加到20m时,速率降为100 Mbps;而当电缆长度为100m时,速率只能达到10 Mbps左右。
  LVDS最早由美国国家半导体公司提出的一种高速串行信号传输电平,由于它传输速度快,功耗低,抗干扰能力强,传输距离远,易于匹配等优点,迅速得到诸多芯片制造厂商和应用商的青睐,并通过TIA/EIA(Telecommunication Industry Association/Electronic Industries Association)的确认,成为该组织的标准(ANSI/TIA/EIA-644 standard)。
  在近距离数据传输中,LVDS不仅可以获得很高的传输性能,同时还是一个低成本的方案。LVDS器件可采用经济的CMOS工艺制造,并且采用低成本的3类电缆线及连接件即可达到很高的速率。同时,由于LVDS可以采用较低的信号电压,并且驱动器采用恒流源模式,其功率几乎不会随频率而变化,从而使提高数据传输率和降低功耗成为可能。因此,USB、SATA、PCI Express以及HyperTransport普遍采用LVDS技术,LCD中控制电路向液晶屏传送像素亮度控制信号,也采用了LVDS方式。
四、新串行时代已经到来 差分传输技术不仅突破了速度瓶颈,而且使用小型连接可以节约空间。因此,近年来,除了USB和FireWire,还涌现出很多以差分信号传输为特点的串行连接标准,几乎覆盖了主板总线和外部I/O端口,呈现出从并行整体转移到新串行时代的大趋势,串行接口技术的应用在2005年将进入鼎盛时期(图8)。
图8 所有的I/O技术都将采用串行方式
  ● LVDS技术,突破芯片组传输瓶颈
  随着电脑速度的提高,CPU与北桥芯片之间,北桥与南桥之间,以及与芯片组相连的各种设备总线的通信速度影响到电脑的整体性能。可是,一直以来所采用的FR4印刷电路板因存在集肤效应和介质损耗导致的码间干扰,限制了传输速率的提升。
   在传统并行同步数字信号的速率将要达到极限的情况下,设计师转向从高速串行信号寻找出路,因为串行总线技术不仅可以获得更高的性能,而且可以最大限度地减少芯片管脚数,简化电路板布线,降低制造成本。Intel的PCI Express、AMD的HyperTansport以及RAMBUS公司的redwood等第三代I/O总线标准(3GI/O)不约而同地将低压差分信号(LVDS)作为新一代高速信号电平标准。
图9 PCI Express 1X数据通道
  一个典型的PCI Express通道如图9所示,通信双方由两个差分信号对构成双工信道,一对用于发送,一对用于接收。4条物理线路构成PCI Express 1X。PCI Express 标准中定义了1X、2X、4X和16X。PCI Express 16X拥有最多的物理线路(16×4=64)。
  即便采用最低配置的1X体系,因为可以在两个方向上同时以2.5GHz的频率传送数据,带宽达到5Gbps,也已经超过了传统PCI总线1.056Gbps(32bit×33MHz)的带宽。况且,PCI总线是通过桥路实现的共享总线方式,而PCI Express采用所谓的“端对端连接”(如图10),每个设备可以独享总线带宽,因此可以获得比PCI更高的性能。图10 PCI Express端对端连接消除了桥路
AMD的HyperTransport技术与PCI Express极其相似,同样采用LVDS数据通道,其工作频率范围从200MHz到1GHz,位宽可以根据带宽的要求灵活选择2、4、8、16或32位。HyperTransport技术现在被用于南北桥之间的快速通信,今后还将用于其它芯片间的连接。
  ● Serial ATA,为高速硬盘插上翅膀
在ATA-33之前,一直使用40根平行数据线,由于数据线之间存在串扰,限制了信号频率的提升。因此从ATA-66开始,ATA数据线在两根线之间增加了1根接地线正是为了减少相互干扰。增加地线后,数据线与地线之间仍然存在分布电容C2,还是无法彻底解决干扰问题,使得并行ATA接口的最高频率停留在133MHz上。除了信号干扰这一根本原因之外,并行PATA 还存在不支持热插拔和容错性差等问题,采用Serial ATA才完成脱胎换骨的蜕变,使问题得到了解决。
  Serial ATA 是Intel 公司在IDF 2000 上推出的概念,此后Intel 联合APT、Dell、IBM、Seagate以及Maxtor等几家巨头,于2001年正式推出了SATA 1.0 规范。而在IDF2002春季论坛上,SATA 2.0 规范也已经公布。
  Serial ATA接口包括4根数据线和3 根地线,共有7 条物理连线。目前的SATA 1.0标准,数据传输率为150MBps,与ATA-133接口133MBps的速度略有提高,但未来的SATA 2.0/3.0可提升到300MBps以至600MBps。从目前硬盘速度的增长趋势来看,SATA 标准至少可以满足未来数年的要求了。
图11 并行ATA的线间串扰
  ● FireWire,图像传输如虎添翼
  FireWire(火线)是1986年由苹果电脑公司起草的,1995年被美国电气和电子工程师学会(IEEE)作为IEEE 1394推出,是USB之外的另一个高速串行通信标准。FireWire最早的应用目标为摄录设备传送数字图像信号,目前应用领域已遍及DV、DC、DVD、硬盘录像机、电视机顶盒以及家庭游戏机等。
  FireWire传输线有6根电缆,两对双绞线形成两个独立的信道,另外两根为电源线和地线。SONY公司对FireWire进行改进,舍弃了电源线和地线,形成只有两对双绞线的精简版FireWire,并给它起了个很好听的名字i.Link。
  FireWire数据传输率与USB相当,单信道带宽为400Mbps,通信距离为4.5m。不过,IEEE 1394b标准已将单信道带宽扩大到800Mbps,在IEEE 1394-2000新标准中,更是将其最大数据传输速率确定为1.6Gbps,相邻设备之间连接电缆的最大长度可扩展到100m。
  五、串行口能红到哪天?
  阅读本文之后,如果有人问你关于串行通信与并行通信哪个更好的问题,你也许会脱口而出:串行通信好!但是,我要告诉你,新型串行口之所以走红,那是因为采用了四根信号线代替了传统两根信号线的信号传输方式,由单端信号传输转变为差分信号传输的原因,而“在相同频率下并行通信速度更高”这个基本的道理是永远不会错的,通过增加位宽来提高数据传输率的并行策略仍将发挥重要作用。
  技术进步周而复始,以至无穷,没有一项技术能够永远适用。电脑技术将来跨入THz时代后,对信号传输速度的要求会更高,差分传输技术是否还能满足要求?是否需要另一种更好的技术来完成频率的另一次突破呢?让我们共同关注。

2007年8月20日星期一

在Perl中获取当前目录的完整路径

有两种方法:
1. use Cwd;
my $dir = getcwd;
#$dir中即为当前目录的完整路径信息。

2. my $dir = $ENV{'PWD'};
#ENV是一个散列,用于存放环境变量。$PWD是Linux的环境变量,表示当前所在目录。

若当前目录为/usr/lib/, 则上面的$dir = /usr/lib

2007年7月9日星期一

《Learning Perl》学习笔记 -- 其余几章

第十三章 处理文件和目录
介绍如何删除文件、重命名文件、链接和文件、建立和删除目录等。比较有用的是介绍了File::Basename(用来获得文件的基名和目录名)和File::Spec模块(用来处理文件规范)。使用命令perldoc File::Basename获得模块的使用方法。
模块声明:在程序的顶部附近通过use命令来声明它
use File::Basename;
在编译的时候,Perl看到这行,就会将这个模块装载进来。

以下四章对我来说有些深奥了,没有仔细研究,以后如果用到,再好好看看:
第十四章 进程管理
第十五章 字符串和排序
第十六章 简单数据库
第十七章 一些高级Perl技术


《Learning Perl》学习笔记 -- 第十二章 目录操作

本章介绍如何改变目录树,如何使用目录句柄以读取目录中的文件列表等。

1.改变目录树
chdir操作符可以改变工作目录。就像Unix中shell的cd命令:
chdir "/etc" or die "can not chdir to /etc:$!";
2.目录句柄
可以使用目录句柄(directory handle)来指定目录的文件列表。目录句柄在外表和操作方式上都很像文件句柄,你可以打开它(opendir)、读取它(readdir)还可以关闭它(closedir)。不过与读出文件的内容不同的是,你读出来的是目录中的文件(和其它东西)的名字。譬如:
my $mydir = "/etc";
opendir MYDIR, $mydir or die "Can not open $mydir:$!";
foreach $file (readdir MYDIR) {
print "one file in $mydir is $filen";
}

这里需要注意的一点是readdir操作符返回的文件名没有路径名部分,它仅仅是目录内的名字。因此,在上例中,对于/etc/passwd,$file的值为passwd而不是/etc/passwd。所以,需要我们自己把名字补齐来以得到全名:
my $mydir = "/etc";
opendir MYDIR, $mydir or die "Can not open $mydir:$!";
while (my $name = readdir MYDIR) {
next if $name =~ /^./; #跳过以点开头的文件
$name = "$mydir/$name"; #补上路径
next unless -f $name and -r $name; #只要可读文件
...
}

《Learning Perl》学习笔记 -- 第十一章 文件句柄和文件测试

本章介绍如何读写文件及测试文件的类型,是日常编程中重要的内容。

1.文件句柄的概念
文件句柄(filehandle)是Perl程序中的一个名字,表示你的Perl进程与外面世界的I/O连接。也就是说,它是一个连接的名字,并不一定是一个文件的名字。
文件句柄
文件<====================>进程
2.文件句柄的命名
命令文件句柄的方式和其它Perl标识符一样(字母、数字和下划线,但不能以数字开始),但文件句柄名没有前缀字符。为了避免和Perl的保留字(关键字)冲突,一般文件句柄名全部用大写字母。
3.打开一个文件句柄
open MYFILE " > myfile" or die "Cannot Create myfile:$!";
其中,MYFILE是文件句柄名,myfile是实际的文件名,>表示向该文件中写入数据(<表示从该文件中读取数据,>>表示向该文件中追加数据);若打开文件出错,会执行die语句,终止程序执行,并给出错误信息,$!用于给出错误信息。
4.关闭一个文件句柄
close MYFILE;
5.使用文件句柄
一旦打开了一个文件句柄,就可以读入行,像使用STDIN从标准输入读取一样,譬如:
open MYFILE " > myfile" or die "Cannot Create myfile:$!";
while (<MYFILE>) {
...
}
一个为写入或追加而打开的文件句柄可以和print或printf一起使用,紧跟在其后但在参数列表之前:
print LOG "Captain's log, stardate 3.14159n"; # 输出到LOG
print STDERR "%d percent complete.n", $done/$total*100;
6.文件测试
Perl有一组完整的测试,可以用它们了解文件的信息,譬如某个文件是否存在,是否可读、可写等。所有的文件测试都有一个短横和一个字母,它们是测试的名字,后面是一个要测试的文件名或文件句柄,一般会返回一个真/假值。用法如下:
if (-e $filename) {
...
}
常用的文件测试及它们的含义:
-r : 文件或目录对该用户或组可读
-w : 文件或目录对该用户或组可写
-x : 文件或目录对该用户或组可执行
-o :文件或目录被该用户所有
-e :文件或目录存在
-z :文件存在,大小为零(对目录总为假)
-s :文件或目录存在,大小非零(单位为字节)

-f :条目是个普通文件

-d :条目是个目录
-l :条目是个符号链接

2007年7月6日星期五

《Learning Perl》学习笔记 -- 第十章 更多的控制结构

本章介绍了一些不常用的控制结构,在日常编程中基本上都不会用到,下面介绍几个可能用到的控制结构。

1.elsif子句
if (...) {
}
elsif (...) {
}
else {
}
2.for控制结构
和C语言中的类似
for (initialization;test;increment) {
...
}


2007年5月29日星期二

《Learning Perl》学习笔记 -- 第九章 使用正则表达式

本章介绍如何在Perl中使用正则表达式,介绍了“查找”(m//)、“替换”(s///)及split操作符、join函数的用法。

1.使用m//进行匹配

前面两章介绍的模式,都是在一对斜杠中的,如/fred/。但这实际上是m//(模式匹配)操作符的一个快捷方式,只所以说是快捷方式是因为可以选择任何定界符对把内容括住,而当选择了斜杠作为定界符时,就可以省略开始的m。譬如,m#fred#和/fred/是等价的。

有几个选项修饰符字母,也可称为标志符(flag),可以把它们附加在正则表达式的结束定界符后面,以改变表达式的缺省行为。

/i:进行不区分大小写的匹配,如/fred/i;

/s:使点号(.)可以进行任何字符的匹配,点号原先不能匹配换行符,加上这个标志符后,就可以匹配任何字符,如/fred.*lee/s;

可以组合使用标志符,组合的顺序不重要,譬如/fred/is和/fred/si是等价的。

2.绑定操作符=~

与$_匹配只是个缺省操作。绑定操作符(binding operator)=~告诉Perl用右侧的模式匹配左侧的字符串,而不是匹配$_。譬如:

if ($some_other =~ /brub/) {

...

}

3.在模式中替换

这里的替换指的是双引号替换,即在正则表达式中,可以把变量替换为它实际的值。进行变量替换时,需要将变量放在小括号中。譬如:

my $what = "larry";

if (/^($what)/) {

...

}

4.匹配变量和记忆的持久性

在正则表达式中使用\n对匹配的字符串进行反向引用,而在Perl中,使用$n来引用匹配的字符串。两者的区别是,\n回指当前正在进行匹配的正则表达式的第n个记忆,$n表示一个已经完成的模式匹配的第n个记忆。两者有个时间差,即在同一时刻指的并不是同一个字符串。譬如:

$_ = "Hello there, neighbor";

if (/\s(\w+),/) { # 记住空格和逗号之间的单词

print "the word was $1\n"; # $1 = Hello there

}

匹配变量一般保留到下一次模式匹配成功,即一个不成功的匹配会维持以前记忆的原状,但一个成功的匹配则全部重新设置它们。这是模式匹配一般总是在if或while的条件表达式中的一个原因。由于记忆不会永远保持,所以一般在模式匹配的后面马上使用这个记忆的变量,或者将这个记忆的变量拷贝到一个普通变量中,以便后面继续使用。譬如:

if ($wilma =~ /(\w+)/) {

my $wilma_word = $1;

...

}

在Perl中,有三个系统定义的模式匹配变量,即你无须自己定义这些变量即可使用它们:

$`:保存正则表达式引擎在找到匹配之前需要跳过的部分;

$&:保存实际与模式匹配的那部分字符串;

$':保存模式没有到达的字符串的剩余部分;

将这三个字符串按顺序连在一起,你总会得到原字符串:$`$&$'。

5.用s///进行替换

使用s///可以用一个替换字符串来替换一个变量匹配模式的部分,譬如:

$_ = "He's out bowling with Barney tonight.";

s/Barney/Fred/; # 用Fred替换Barney

s///有一个返回值,如果替换成功,则返回真;否则,返回假。

和m//类似,s///可以使用绑定操作符=~ 改变匹配的变量,譬如:

$file_name =~ s/Barney/Fred/; #在$file_name中查找Barney并将其替换为Fred

和m//类似,s///也可以使用不同的定界符,此处不再赘述。

和m//类似,s///使用一组标志符来改变缺省行为:

/g:进行全局替换,如果没有这个标志,则s///仅替换匹配的第一个模式;

/i,/s:用法和m//中的类似,此处不再赘述;

6.大小写转换

在替换的时候,可能经常希望替换字符采用了合适的大写(或小写,依需要而定)。这很容易用Perl来完成,即通过一些反斜杠转义。

\U转义符强制后面的字符都用大写,譬如:

$_ = "I saw Barney with Fred";

s/(fredbarney)/\U$1/gi; #$_现在是"I saw BARNEY with FRED."

\L转义符强制后面的字符都用小写;

缺省情况下,U和L会影响其后的所有(替换)字符串,除非使用\E关闭大小写转换,譬如:

$_ = "I saw Barney with Fred";

s/(\w+) with (\w+)/\U$2\E with $1/i; # $_现在是"I saw FRED with Barney."

当写成小写的形式时(\l\u),它们只影响下一个字符,譬如:

$_ = "I saw barney with fred";

s/(fredbarney)/\u$1/gi; # $_现在是"I saw Barney with fred."

\u\L(或\L\u)表示全部小写,但是第一个字符大写;

7.split操作符

split操作符把一个字符串按照分割子(separator)分开。格式如下:

@result = split /separator/, $string;

split操作符在字符串中用模式/separator/扫一遍,返回一个由分割子分割的字段(子字符串)的列表。每当模式匹配时,就是一个字段的结束和下一个字段的开始,因此,任何可以匹配模式的东西都不会出现在返回的字段中。譬如:

@result = split /:/, "abc:def:g:h"; # @result = ("abc", "def", "g","h")

8.join函数

join函数完成split操作符相反的功能:split把一个字符串分成若干片段,而join则把一组片段粘合起来形成一个字符串。格式如下:

my $result = join $glue, @pieces;

join的第一个参数是粘合串,它可以是任何字符串。另一个参数是由片段组成的一个列表,join把粘合字符串放在片段之间。譬如:

my $x = join ":", 4,6,8,10,12; # $x = "4:6:8:10:12"

2007年5月28日星期一

《Learning Perl》学习笔记 -- 第八章 正则表达式提高

本章介绍了字符类、通用数量符、锚位符、记忆的小括号、反向引用及优先级等重要内容,前面的内容好懂、易记,后面的“记忆的小括号、反向引用和优先级”的内容需要重点理解与掌握,有一定难度。

1.字符类

字符类(character class),即在一对中括号([])中列出的所有字符,可以匹配类中的任何单个字符,它只匹配一个字符,但该字符必须在表中。譬如[abcdwxyz]或[a-dw-z](可用短横-指定一个字符范围,上面两个字符类是等价的)。

可以用双引号字符串中类似的字符快捷方式来定义一个字符类,譬如[000-177]匹配任何7比特ASCII字符。

在字符类前加一个脱字符(^)可以反置它,即只匹配不包含在中括号中的任何单个字符。譬如[^abc]匹配除了a、b和c之外的任何字符。注意,脱字符必须出现在中括号内字符的最前面,否则不具备反置的含义。如[a^bc]表示匹配a、^、b和c中的任一字符。

字符类的快捷方式:

d:匹配所有数字的字符类,等价于[0-9];d是digital的缩写

w:匹配所谓的“单词”字符,即普通字母、数字和下划线,等价于[A-Za-z0-9_];w是word的缩写

s:匹配空白,包括换页符、制表符、换行符、回车符和空个字符,等价于[ftnr ];s是space的缩写

D:匹配所有非数字字符类,即d的反置形式,等价于[^d];

W:匹配所有的非“单词”字符,即w的反置形式,等价于[^w];

S:匹配所有的非空白字符,即s的反置形式,等价于[^s];

2.通用数量符

使用大括号({})中的一对由逗号隔开的数字来指定重复的最少和最多次数。

/a{N,M}/:匹配重复N到M次的字符a;

/a{N,}/:匹配重复次数大于等于N的字符a,没有上限;

/a{N}/:匹配重复次数等于N的字符a,精确匹配;

3.锚位符(anchor)

^:标志字符串的头,可以理解为标志行首,譬如/^fred/匹配以fred开头的行;

$:标志字符串的尾,可以理解为标志行尾,譬如/fred$/匹配以fred结束的行;

b:单词边界锚位符,标志单词的开始与结束,用于精确匹配单词(单词中只含有w类型的字符),譬如/bfredb/精确匹配单词fred;

B:非单词边界锚位符,可以看作b的反置形式;

4.记忆的小括号及反向引用

小括号的一个功能是把模式的一些部分组合起来,它的第二个作用是要求正则表达式引擎记住与小括号中的模式匹配的那部分子串。也就是说,它不是记住模式本身,而要记住相应的部分字符串。在用小括号进行分组时,它们自动具有记忆功能。

反向引用(backreference)就是回头引用当前模式处理过程中保存的记忆。反向引用由一个反斜杠来构成,譬如,1包含第一个正则表达式记忆(即被第一对小括号匹配的字符串部分)。

反向引用被用来匹配与模式在前面匹配的字符串完全一样的字符串,譬如/(.)1/匹配任何字符,后跟同一个字符,即匹配任何双字符(如aa,11,两个连续空格等)。

反向引用使用n来标记第n个正则表达式记忆,确定n的方法是:从左到右,只数左括号的个数即可。譬如,在模式/((fredwilma)(stone))/中,1表示最外层的小括号匹配的字符串部分,2表示(fredwilma)小括号匹配的字符串,3表示(stone)小括号匹配的字符串。

在使用八进制转义字符时,如果小于100,则最高位写0,如012,以避免被误当作反向引用。

5.优先级

在介绍优先级之前,需要了解所谓的原子(atom),它是构成模式最基本的片段,可以看作不可分割的一个最小单元。原子包括独立的字符、字符类和反向引用。

正则表达式的优先级分四个级别,优先级数字越低,级别越高:

1.小括号,用作分组和记忆。小括号中的任何东西比其它东西都更紧密地“粘在一起”;

2.数量符,包括星号(*)、加号(+)、问号(?)和大括号构成的数量符;

3.锚位符和字符串序列,即一个单词中的字母粘在一起的紧密程度与锚位符粘着字母的紧密程度一样;

4.最低的优先级是表示选择的竖线。

2007年5月27日星期日

《Learning Perl》学习笔记 -- 第七章 正则表达式的概念

笔者注:用过几次正则表达式后,为它的强大与灵活所折服,打算再深入研究一下,本书推荐了Jeffrey E.F.Friedl编著的《Mastering Regular Expression》,已经从图书馆借的,有空研读一下:P

本章主要介绍了正则表达式的概念,还介绍了正则表达式的一些基本要素,如元字符、数量符、模式分组、选择等。

1.正则表达式的概念

书中这段讲的很好,简明易懂,我就照抄了,呵呵

正则表达式(regular expression),在Perl中经常被成为模式(pattern),是与一个给定字符串匹配或不匹配的模板。也就是说,有无限数量可能的文本字符串。一个给定的模式把这个无限集合分成两个组:匹配的组和不匹配的组。不能有“可能”、“也许”、“似乎”之类的匹配:必须是要么匹配,要么不匹配。

正则表达式强调的是一种精确的概念。

2.使用简单的模式

要比较一个模式(正则表达式)和$_的内容,只需把模式放在一对斜杠(/)之间,如下所示:

$_ = "yabba dabba doo";

if (/abba/) {

...

}

表达式/abba/在$_中寻找这个四字符的字符串,如果找到了,返回真;否则,返回假。

这是一种默认模式,在下一章中将介绍如何在一个指定的变量中匹配特定的模式。

所有可以放在双引号字符串中的常见反斜杠转义符都可以被用在模式中。

3.元字符

正则表达式中有一组具有特殊意义的特殊字符,叫做元字符(metacharater)。

句号(.):匹配除了换行符(n)以外的任何单个字符;

反斜杠(\):在任何元字符前加一个反斜杠都会使得它不再特别;\.表示一个句号,\\表示一个反斜杠;

4.数量符(quantifier)

星号(*):匹配前面的条目零次或多次;

加号(+):匹配前面的条目一次或多次;

问号(?):匹配前面的条目零次或一次,即前面的条目是可选的;

这三个数量符都必须跟在某些东西的后面,因为它们就是表示前面的条目可能重复多少次。

5.模式中的分组

在正则表达式中,使用小括号("()")进行分组。譬如,模式/(fred)+/匹配类似于fredfredfred的字符串。

6.选择

竖线表示要么是左侧匹配,要么是右侧匹配,此时读做“或”,也就是说,如果模式中竖线左侧的部分不能匹配,那么右侧的部分就有机会进行匹配。

7.一个模式测试程序

该章给了一个有趣的模式测试程序,可以用来测试自己写的正则表达式是否可以如自己所愿、匹配需要匹配的东西。

#!/usr/bin/perl

while (<>) { #一次得到一个输入行

chomp;

if (/YOUR_PATTERN_GOES_HERE/) {

print "Matched: $`<$&>$'\n"; # <>之间、$后面的是与字符(&)

} else {

print "No match.\n";

}

}