Java etc.: Wort RegEx inklusive Unicode

Donnerstag, 8. Oktober 2009

Wort RegEx inklusive Unicode

mattki, 12:22h

Der reguläre Ausdruck (RegEx) \w steht für ein Zeichen eines Worts. In Java umfasst er aber nur die Buchstaben von a bis z und A bis Z, sowie die Ziffern. \w entspricht also dem regulären Ausdruck [a-zA-Z_0-9].

Im deutschen gibt es aber Umlaute und in anderen Sprachen noch ganz andere Schriftzeichen.

Mit welchem regulären Ausdruck kann man also all diese Wortzeichen bezeichnen?

Der Ausdruck für ein Unicode Wortzeichen inklusive aller Unicode Buchstaben (Letters) und Ziffern (Numbers) ist:

[\p{L}\p{N}]

Beispiel:



// RegEx, das beliebig viele Wortzeichen umfasst:

Pattern pattern = Pattern.compile("[\\p{L}\\p{N}]*");



// true, weil nur Buchstaben und Ziffern:

boolean test1 = pattern.matcher("18Mäuse").matches();



// false, wegen dem Leerzeichen:

boolean test2 = pattern.matcher("18 Mäuse").matches();

Weitere Quelle:

http://www.jspwiki.org/wiki/JavaRegularExpressions#section-JavaRegularExpressions-UnicodeSupport
http://www.dpawson.co.uk/xsl/rev2/UnicodeCategories.html

... comment

Oktober 2009
Mo	Di	Mi	Do	Fr	Sa	So
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31
September				November

Java etc.

Navigation

Suche

Werbung

Statistik

Werbung

Archiv

Letzte Änderungen