SRELL ～ C++用正規表現テンプレートライブラリ

　SRELL (std::regex-like library) はC++用のUnicode対応正規表現テンプレートライブラリです。

概要

std::regexと同じクラス構成のテンプレートライブラリ

　SRELLはECMAScript (JavaScript) 互換の正規表現エンジンを、"std::regex"（C++11で導入された正規表現ライブラリ）とクラス構成が同じになるようにラッピングしたものです。API/クラスデザインが同じですので、std::regexや、その基となったboost::regexと同じように扱えます。
　また、ヘッダファイルのみの純粋なテンプレートライブラリですのでincludeするだけですぐに使えます。事前のセットアップやインストールは不要です。

ECMAScript (JavaScript) 互換

　たた「JavaScriptと同じ正規表現が使える」というだけではなく、挙動も同じになるよう作られています。たとえば正規表現 /(?:(a)|(b))+$/ を文字列 "ab" にマッチさせた時、1番括弧にも2番括弧にも文字列が入ってしまうようなことがありません。

Unicodeに特化した実装

　SRELLはUnicodeに特化した正規表現ライブラリです。

特別な設定をせずとも既定でUTF-8/UTF-16/UTF-32文字列が扱えます。'.' がUTF-16文字列でサロゲートペアの片割れだけにマッチしたり、UTF-8文字列のコードユニットにマッチしたりするようなことがありません。
文字クラス内でプレーン1以降の文字も [丈𠀋] のように指定できます。また [\u{1b000}-\u{1b0ff}] のような範囲指定もできます。
ギリシア文字のΣのように小文字が2種類ある字（u+03c2 [ς] と u+03c3 [σ]）や、クロアチア語で使われるラテン文字Ǆのように、「大文字Ǆ (upper-case)」・「小文字ǆ (lower-case) 」に加えて、「頭文字ǅ (title-case)」なる第3のcaseがある文字でも、icase検索（大文字・小文字を区別しない検索）時にきちんと処理されます。

※ちなみにC++11以降のstd::regexは、us-asciiやiso-8859-*のような1文字が固定長の文字コードを前提としています。そのため1文字が可変長であるUTF-8, UTF-16, Shift_JIS, EUC-JPの文字列はうまく扱えません。

Ignore case (icase) 検索にも配慮

　SRELLはicase検索（大文字・小文字を区別しない検索）時の速度低下が極力軽減されるようチューニングされています。

　C++11に向けた改訂作業の中でもregexは比較的初期に提案された拡張であったことから、まったくと言って良いほどC++11の新機能に依存していません。そのためC++11より前のコンパイラであっても、C++のテンプレートを正しく解釈するものであればSRELLは利用可能です（動作確認済みコンパイラのうちもっとも古いものはVC++2005です）。

Download

SRELL 4.140 (BSD License) 2025年12月27日版（更新履歴）
最新版へのリンク（インストーラ構築用）

倉庫
関連：今後適用されるかもしれない変更

※ヴァージョン番号について：小数点以下第三位については今後使用しないことにしました。
ただし混乱を避けるため、メジャー番号を上げるまでは小数点以下3桁目まで使った書式は継続するつもりです（4.08, 4.09, 4.10, ...は避けて4.080, 4.090, 4.100, ...とする）。

使い方

　パスの通ったところに srell*.h*（srell.hpp, srell_ucfdata2.h, srell_updata3.h の3ファイル）を置いて srell.hpp をincludeするだけです。

//  Example 01:
#include <cstdio>
#include <string>
#include <iostream>
#include "srell.hpp"

int main()
{
    srell::regex e;     //  正規表現オブジェクト。
    srell::cmatch m;    //  結果を納めるオブジェクト。

    e = "\\d+[^-\\d]+"; //  正規表現をコンパイル。
    if (srell::regex_search("1234-5678-90ab-cdef", m, e))
    {
        //  printfを使うなら。
        const std::string s(m[0].first, m[0].second);
            //  上は下のどちらかでも良い。
            //  const std::string s(m[0].str());
            //  const std::string s(m.str(0));
        std::printf("result: %s\n", s.c_str());

        //  iostreamを使うなら。
        std::cout << "result: " << m[0] << std::endl;
    }
    return 0;
}

　この例のように、SRELLを構成するクラスやアルゴリズムはすべてnamespace srellの下に置かれています。この点を除けば使い方はstd::regexに準じます。

　~~現時点ではまだstd::regexに関する日本語の文書があまりないようですので、さしあたって~~SRELLを使ううえで必要となりそうな情報を次のページにまとめました。

SRELLの使い方

　Zipアーカイヴ内の readme_ja.txt も併せてご覧ください。

SRELLの正規表現

　ECMAScript仕様書の最新ドラフトのRegExpに定義されている表現が使えます。

　既定ではuフラグは常に指定されていると見なされます。SRELL 4.000以降はvフラグモード (/.../v) にも対応していて、パターンコンパイラ (srell::basic_regex) にunicodesetsフラグを渡すことでvモードがオンになります。vモードの詳細については専用の頁を設けてあります。

　対応している表現の詳細は次の通りです（注記なきものはuモード/vモード共通）。

SRELLで使用可能な正規表現一覧
文字
.	既定：改行文字（U+000A, U+000D, U+2028, U+2029の4文字）以外の文字にマッチ。即ち `[^\u000A\u000D\u2028\u2029]` 相当。 `dotall`フラグあり：あらゆる文字にマッチ。即ち `[\0-\u{10ffff}]` と等価。 `dotall`指定時には、`.*`が残りの文字列すべてにマッチしてしまうことに注意。
\0	NULL文字 (`\u0000`) にマッチ。
\t	水平タブ (`\u0009`) にマッチ。
\n	Line Feed (`\u000a`) にマッチ。
\v	垂直タブ (`\u000b`) にマッチ。
\f	Form Feed (`\u000c`) にマッチ。
\r	Carriage Return (`\u000d`) にマッチ。
\cX	`(Xの文字コード & 0x1f)` に相当するコントロール文字にマッチ。Xの範囲は `[A-Za-z]` のみ有効。 `\c` の後ろにA-Zまたはa-zが続いていない時は`error_escape`が`throw`されてくる。
\\	バックスラッシュそのもの (`\u005c`) にマッチ。
\xHH	UTF-16におけるコードユニット値が、2桁の16進数`HH`である文字にマッチ。 `\x` の後ろに2桁の16進数が続いていない時は`error_escape`が`throw`されてくる。 UTF-16において`0x00`-`0xFF`のコードユニット値はそれぞれU+0000～U+00FFの文字を表すので、この表現は事実上Unicodeのコードポイント値を表すとも言える。
\uHHHH	Unicodeのコードポイント値が、4桁の16進数`HHHH`である文字にマッチ。 `\u` の後ろに4桁の16進数が続いていない時は`error_escape`が`throw`されてくる。 SRELL 2.500以降：連続する`\uHHHH`がUTF-16におけるサロゲートペアを構成している場合は、そのペアによって表されるUnicode値に変換される。例えば `/\uD842\uDF9F/` は `/\u{20B9F}/` と解釈される。
\u{H...}	1桁以上の16進数`H...`で表されるUnicodeのコードポイントを持つ文字にマッチ。 `\u{...}` の `{}` 内が1桁以上の16進数ではない時や、コードポイントの上限値 (`0x10FFFF`) を超えている時、閉じ `'}'` がない時などには`error_escape`がthrowされてくる。 Note: ECMAScript 6にて追加された表現です。提案書の段階では`{...}`内は「1～6桁の16進数」とされていたのですが、ECMAScript仕様への追加が決まった際に「1桁以上の16進数」に変更されていたようです。この変更に長らく気づかなかったため、SRELL 2.001までは提案書に基づく実装となっています。
\	`\` に `^ $ . * + ? ( ) [ ] { } \| /` のうちのどれかが続いている時は、その続いている文字そのものを表す。すなわち`\`を前に置くとこれらの字が持つ特殊性が失われ、パターンコンパイラは文字通りに認識する（`'/'` も含まれているのは、ECMAScriptでは正規表現を `//` で囲うためです）。後述する文字クラス内では前記14字に加えて `'-'` も `"\-"` の形で使える。 Note: ECMAScriptの`u`フラグモード、`v`フラグモードでは、「`\`とそれに続く何か」という組み合わせはすべて予約されています。そのため「`\`何か」に特別な意味がなければ、「何か」の部分の字そのものとして解釈されるだろうと期待することは出来ません。定義されていない「`\`何か」はエラーとなります。
^$.*+?()[]{}\|\/ 以外の文字	その文字そのものを表す。
選択
A\|B	正規表現AまたはBにマッチ。`/abc\|def\|ghi?\|jkl?/` のように `'\|'` はいくつでも並べることが出来る。 `'\|'` によって区切られた各正規表現ブランチは左から右へと順番にマッチングが試みられ、最初にマッチングが成功したもののみが採用される。たとえば `"abcdef"` に対して `/abc\|abcdef/` でマッチングを行った場合、結果は `"abc"` となる。
文字クラス
[]	文字クラス。文字集合。 `[ABC]`……`A`か`B`か`C`かにマッチ。 `[^DEF]`……最初が`^`の時は補集合。この例の場合`D`でも`E`でも`F`でもない文字にマッチ。 `[G^H]`……冒頭以外にある`^`は`^`そのものを表す。この例の場合`G`か`^`か`H`かにマッチ。 `[I-K]`……`I`か`J`か`K`かにマッチ。文字1-文字2という並びは「文字1のUnicodeにおけるコードポイント値から文字2の同コードポイント値までの範囲に含まれる文字のどれか」を意味する。 `[-LM]`……上記のような並び以外に位置する`-`は`-`そのものを表す。この例の場合`-`か`L`か`M`かにマッチ。 `[N-P-R]`……範囲指定直後の`-`も`-`そのものを表す。この例の場合は`N`, `O`, `P`, `-`, `R`のいずれかにマッチ。`Q`は含まれず。 `[S\-U]`……`'S'`か`'-'`か`'U'`かにマッチ。`\`でエスケープされた`'-'`は`'-'`そのものを表す（`"\-"`は文字クラス内でのみ使用可能）。 `[.\|({]`……`.`か`\|`か`(`か`{`かにマッチ。これらも文字クラスの中ではその特殊性を失う。 `[]`……空集合。どの文字にもマッチせぬため、これが現れると照合は常にそこで失敗する。 `[^]`……空集合の補集合。どの文字にもマッチする。`[\0-\u{10FFFF}]`と同じ。大文字・小文字を区別しない検索の時（`icase`フラグ指定時) の挙動は次の通り。 `[E-F]`……`'E'` (u+0045) から`'F'` (u+0046) までの文字と、Unicodeのcase folding処理を適用した時にこの範囲の文字のどれかと同一視される字。即ち`'E'`, `'F'`, `'e'`, `'f'`の4文字にマッチする。 `[E-f]`……`'E'` (u+0045) から`'f'` (u+0066) までの文字と、Unicodeのcase folding処理を適用した時にこの範囲の文字のどれかと同一視される字。即ち`'A'`から`'Z'`までの26文字と、`'a'`から`'z'`までの26文字と、`'['`, `'\'`, `']'`, `'^'`, `'_'`, '`', `'ſ'`, `'K'`の7文字とにマッチする。 Perlの正規表現には「`'['` の直後にある `']'` は `']'` そのものを表す」という特例があるが、ECMAScriptの正規表現にはそのような例外はない。従って `']'` を文字クラスに含めるには常に `'\'` でエスケープして `"\]"` と書く必要がある。 `'['` と `']'` とが非対称な時には`error_brack`が`throw`される。また `[b-a]` のように範囲指定がおかしい時には`error_range`が`throw`される。
[]	vモード（`unicodesets`フラグ指定時）においては、上記の機能 (union) に加えて次のような機能が文字クラスに追加される。 `[\p{sc=Latin}&&\p{Ll}]`……複数の文字集合の間に`&&`を書くと、両方の集合に含まれる文字からなる集合を作り出すことが出来る (Intersection)。この例の場合、ラテン文字 (`\p{sc=Latin}`) かつ小文字 (`\p{Ll}`) である文字のみにマッチ。 `[\p{sc=Latin}--\p{Ll}]`……複数の文字集合の間に`--`を書くと、左側の集合から右側の集合に含まれる文字を取り除くことが出来る (Difference/Subtraction)。この例の場合、ラテン文字 (`\p{sc=Latin}`) のうち小文字 (`\p{Ll}`) ではない文字のみにマッチ。 `\q{...}` という表現を使うことにより、文字クラスに文字列を含めることが出来る。例えば、`[a-z\q{ch\|th\|ph}]` は `[a-z]` の範囲にある1文字、または文字列 `ch`, `th`, `ph` のいずれかにマッチする。文字列が文字クラスに含まれる時は、長いもの、コードポイント数が多いものから順に照合が行われることが保証されている。従って先の例は事実上 `(?:ch\|th\|ph\|[a-z])` に等しい。 `\q{...}` は演算の対象とすることも可能。 `[]`を入れ子にすることが可能。そして上記演算子と共に使うことも出来る。例えば `[\p{sc=Latin}--[a-z]]` は、ラテン文字 (`\p{sc=Latin}`) のうち `[a-z]` の範囲にないものにマッチ。同じ階層の `[...]` 内では、1種類の演算のみが使用可能（以下の例中`A`, `B`, `C`, `D`などは文字クラスを表すものとする）。 `[AB--CD]`……エラー。`error_operator`が`throw`される。`AB` でunionが行われた後に異なる種類の演算である `--` が現れているため。 `[[AB]--[CD]]`: OK. `[A[B--C]D]`: OK. `[\p{sc=Latin}--\p{Lu}--[a-z]]`: OK. 同じ種類の演算を複数回行うのはエラーとならず。注意事項1：vモードでは `( ) [ { } / - \|` の8文字を直接文字クラス内に書くことはできません。[]内に書く時は `\` を直前に置いてエスケープする必要があります（`]`は従来からエスケープ必須）。エスケープされずに現れた時は、`error_noescape`が`throw`されてきます。注意事項2：次の18種類の二重記号は将来の機能拡張用に予約されています。これらを[]内に書くことは出来ません。使用された場合は`error_operator`が`throw`されてきます。 `!!`, `##`, `$$`, `%%`, `**`, `++`, `,,`, `..`, `::`, `;;`, `<<`, `==`, `>>`, `??`, `@@`, `^^`, ``, `~~`
定義済み文字クラス
\d	`[0-9]`に同じ。`[\d!"#$%&'()]` のように文字クラス内（`[]`の中）でも使用可能。
\D	`[^0-9]`に同じ。`\d`同様に文字クラス内（`[]`の中）でも使用可能。
\s	`[ \t\n\v\f\r\u00a0\u1680\u2000-\u200a\u2028-\u2029\u202f\u205f\u3000\ufeff]`に同じ。`\d`同様に文字クラス内でも使用可能。 Note: 厳密にはWhiteSpaceとLineTerminatorとに一致します。今後UnicodeカテゴリのZsに新たな文字が追加されることがあれば、その都度WhiteSpaceの右辺値は増えます。
\S	`[^ \t\n\v\f\r\u00a0\u1680\u2000-\u200a\u2028-\u2029\u202f\u205f\u3000\ufeff]`に同じ。`\d`同様に文字クラス内でも使用可能。
\w	`[0-9A-Za-z_]`に同じ。`\d`同様に文字クラス内でも使用可能。
\W	`[^0-9A-Za-z_]`に同じ。`\d`同様に文字クラス内でも使用可能。
\p{...}	`...`の部分で指定されたUnicode property値を持つ文字にマッチ。例えば `\p{scx=Hiragana}` はUnicodeに存在するあらゆるひらがなにマッチする。`\d`同様に文字クラス内でも使用可能。 `...`の部分に指定できるカテゴリ・プロパティーについてはUnicode Property Escapesについての補説を参照。 vモードでは文字列プロパティー（properties of strings. 複数のコードポイントによって表現される文字列にマッチするUnicode property）にも対応。文字クラス内でも使えるが、補集合のクラス (`[^...]`) では使えない。使用した場合、`error_complement`が`throw`される。互換性：ES2018/ES9.0で導入、SRELLは2.000で対応。文字列プロパティー (properties of strings) はES2024で導入、SRELLは4.000で対応。
\P{...}	`...`の部分で指定されたUnicode property値を持たぬ文字にマッチ。`\d`同様に文字クラス内でも使用可能。先の`\p`と異なり、vモードでも`\P{...}`は単一のコードポイントにマッチするUnicode propertiesだけに対応し、properties of stringsには対応しない。`\P{...}`の`...`の部分に文字列プロパティー名を指定すると、`error_complement`が`throw`される。互換性：ES2018/ES9.0で導入、SRELLは2.000で対応。補註：`icase`（case-insensitiveな、大文字小文字の区別をしない照合を行う）フラグが指定されている時、`\P{...}`はuモードとvモードとで異なる文字集合を表す場合があります。詳しくはこちらで解説しています。
量指定子（回数指定）
* *?	直前の正規表現による照合を0回以上繰り返す。``は最長一致を優先、`?`は最短一致を優先する。先行する表現なしにいきなり回数指定が現れた時には`error_badrepeat`が`throw`される。以下5つも同じ。
+ +?	直前の正規表現による照合を1回以上繰り返す。`+`は最長一致を優先、`+?`は最短一致を優先する。
? ??	直前の正規表現による照合を0回ないし1回繰り返す。`?`は最長一致を優先、`??`は最短一致を優先する。
{n}	直前の正規表現による照合をきっちり`n`回繰り返す。 `'{'` と `'}'` とが非対称な時には`error_brace`が`throw`される。以下2つも同じ。
{n,} {n,}?	直前の正規表現による照合を`n`回以上繰り返す。`{n,}`は最長一致を優先、`{n,}?`は最短一致を優先する。
{n,m} {n,m}?	直前の正規表現による照合を`n`回以上・`m`回以下繰り返す。`{n,m}`は最長一致を優先、`{n,m}?`は最短一致を優先する。 `{3,2}`のように範囲指定がおかしい時には`error_badbrace`が`throw`される。
括弧・後方参照・グループ化
(...)	正規表現のグループ化およびその表現とマッチする文字列の捕獲（キャプチャ）。正規表現全体において開き括弧 `'('` が左のほうにあるものから順に、各括弧には1, 2, 3...と参照用の番号が自動的に割り振られ、括弧内の正規表現にマッチした文字列をその番号によって正規表現中の他の場所から参照できる。 `'('` と `')'` とが非対称な時には`error_paren`が`throw`される。括弧自身またはその外側の正規表現に繰り返し指定がある場合、捕獲した文字列はループのたびに未定義値相当にクリアされる。そのためキャプチャした文字列を次のループに持ち越すことは出来ない。例えば `/(?:(a)\|(b))+/` は、`\1`か`\2`かのどちらかは必ず空となる。
\N （※Nは正の整数）	後方参照。`\`の後ろに1-9で始まる十進数が続く時は、対応する番号の()で捕獲した文字列を使って照合が行われる。対応する番号の括弧が正規表現中に存在していない時は`error_backref`が`throw`される。例えば `/(と\|ト).\1/` は、「とまと」や「トマト」にはマッチするが、「トマと」にはマッチしない。 ECMAScriptの正規表現では、文字列を捕獲する括弧が対応する後方参照よりも先行している必要はない。そのため `/\1(abc)/` や `/(abc\1)/` のような表現も有効でありエラーとはならない。対応する括弧が何も捕獲していない時、後方参照は未定義値 (`undefined`) を参照しているものとされる。これは空文字相当として扱われ、照合は常に成功する。
(?<NAME>...)	名前付きの `(...)`。括弧内の正規表現とマッチした文字列は、括弧の番号に加えてNAMEというグループ名でも参照できるようになる。他は `(...)` に同じ。例えば `/(?<year>\d+)\/(?<month>\d+)\/(?<day>\d+)/` という正規表現の場合、最初の括弧は`\1`という表現でも`\k<year>`という表現でも参照できる。 `'\|'` で区切られた位置なら、`/(?<year>\d{4})-\d{1,2}\|\d{1,2}-(?<year>\d{4})/` のように同じグループ名を複数回使うことも可能。互換性：ES2018/ES9.0で導入、SRELLは2.000で対応。同じ名前を複数回使える機能 (duplicate named capturing groups) はES2025で導入、SRELLは4.043で対応。
\k<NAME>	`NAME`という名前の括弧によって捕獲された文字列を参照する。該当する括弧が正規表現中に存在していなければ`error_backref`が`throw`される。互換性：ES2018/ES9.0で導入、SRELLは2.000で対応。
(?:...)	グループ化。`(...)` とは異なりグループ化のみを行って文字列の捕獲は行わない。そのため後方参照用の番号も割り振られない。たとえば `/白(?:い\|く\|かった)/` は、「白い・白く・白かった」のいずれかにマッチするが、送り仮名の部分を後から参照することはできない。文字列の捕獲を行わぬかわりに照合処理が少し速くなる。
フラグ変更
(?ims-ims:...)	同じ括弧内の`...`部分のみオプションフラグの状態を局所的に変更する。 `(?i:...)`　同じ括弧内のみ`icase`フラグをオンにする。 `(?m:...)`　同じ括弧内のみ`multiline`フラグをオンにする。 `(?s:...)`　同じ括弧内のみ`dotall`フラグをオンにする。 `(?-i:...)`　同じ括弧内のみ`icase`フラグをオフにする。 `(?-m:...)`　同じ括弧内のみ`multiline`フラグをオフにする。 `(?-s:...)`　同じ括弧内のみ`dotall`フラグをオフにする。 `(?ims:)`, `(?im-s:)`のようにして一度に複数指定することも可能。ただし`(?ii:)`, `(?i-i:)`のように同じ括弧内で同じフラグを複数回指定しようとすると、`error_modifier`が`throw`される。互換性：ES2025で導入、SRELLは4.045で実装（ただし既定では無効）、4.058より既定で有効。
(?imsvy-imsvy)	※この機能はSRELLの独自拡張です。ECMAScriptの仕様にはありません。コンパイル時に`SRELL_NO_UBMOD`を定義することにより、この機能は無効にできます。正規表現の先頭でフラグ指定をする。 `(?i)`　`icase`フラグが指定されているかのように振る舞う。 `(?m)`　`multiline`フラグが指定されているかのように振る舞う。 `(?s)`　`dotall`フラグが指定されているかのように振る舞う。 `(?v)`　`unicodesets`フラグが指定されているかのように振る舞う。 `(?y)`　`sticky`フラグが指定されているかのように振る舞う。 `(?n)`　`nosubs`フラグが指定されているかのように振る舞う（試験実装）。 `(?-ms)`のように`-`より後に現れる文字に対応するフラグは無効化される。 srell::regex re("(?i)"); printf("icase? %s\n", re.flags() & srell::regex::icase ? "yes" : "no"); // icase? yes re.assign("(?-i)", srell::regex::icase); printf("icase? %s\n", re.flags() & srell::regex::icase ? "yes" : "no"); // icase? no `(?i-ms)`のように一度に複数の指定をすることも可能。ただし`(?ii)`, `(?i-i)`のように同じ括弧内で同じフラグを複数回指定しようとすると、`error_modifier`が`throw`される。この表現は正規表現の先頭でのみ使用可能（Python 3.11以降と同じ）。もし他の場所で使われたら`error_modifier`が`throw`される。註1：SRELL 4.007以降で利用可能。 `v`と`y`とは4.070以降で、`n`は4.080以降で利用可能。註2 `(?n-n)`について：ECMAScriptには`nosubs`フラグに対応する機能も`//n`フラグもありません。`n`という文字の選択はPerlや.NETに倣ったものです。もしECMAScriptが将来`n`フラグを違う意味で使うようになったら、それに合わせてSRELLの`(?n-n)`も違う意味になる可能性があります。そのためこの機能は「試験実装」という扱いにしてあります。
位置にマッチするもの
^	文字列の最初にマッチ。 `multiline`フラグ指定時には、それに加えて文字列中のあらゆる改行の直後（行頭）にもマッチ。
$	文字列の最後にマッチ。 `multiline`フラグ指定時には、それに加えて文字列中のあらゆる改行の直前にもマッチ。
\b	文字クラスの外側では`\w`と`\W`との境界にマッチ。文字クラスの内側ではBEL (`\u0008`) にマッチ。
\B	文字クラスの外側では`\b`がマッチしないところにマッチ。文字クラスの内側で使うと`error_escape`が`throw`される。
(?=...)	肯定先読み。たとえば `/白(?=い\|く\|かった)/` は、後ろに「い・く・かった」のいずれかが続く「白」にマッチする。
(?!...)	否定先読み。たとえば `/白(?!い\|く\|かった)/` は、後ろに「い・く・かった」のいずれもが続かない「白」にマッチする（白黒、白鳥等）。
(?<=...)	肯定戻り読み。たとえば `/(?<=あん\|アン)パン/` は、前に「あん・アン」のいずれかが先行する「パン」にマッチする。 Note: SRELL 1では、(...)内は`/(?<=abc\|def)/`や`/(?<=\d{2})/`のような固定幅の文字列にマッチする表現のみ指定可能です。固定幅でない時は`error_lookbehind`が`throw`されてきます。SRELL 2.000以降にはこのような制限はありません。
(?<!...)	否定戻り読み。たとえば `/(?<!あん\|アン)パン/` は、前に「あん・アン」のいずれも先行しない「パン」にマッチする（餡パン、フライパン、シャンパン等）。 Note: SRELL 1では、(...)内は固定幅の文字列のみ指定可能。固定幅でない時は`error_lookbehind`が`throw`されてきます。SRELL 2.000以降にはこのような制限はありません。

註

正規表現が '\' で終わっていたり、'\' がこの表にない文字との組み合わせで使われたりした時は、error_escapeがthrowされてきます。後者についてはSRELL 2.300まで「'\' に続く文字そのもの」として解釈されていましたが、2.301以降はECMAScriptの仕様に合わせてエラー扱いするようになりました。
後方参照の直後に数字を書きたい時、これらが続けて解釈されるのを防ぐ方法としては「/(?:\1)0/ のように後方参照をそれ単体からなるグループにする」「/\1\u0030/ のように数字のほうはコードポイントで書く」「/\1[0]/ のように、数字のほうはその1文字だけからなる文字クラスとして書く」などがあります。SRELLのパターンコンパイラはどの書き方も同じ内部表現に変換します。
ECMAScriptの正規表現には \ooo や \0ooo のような8進数表現が存在しません。ECMAScriptの仕様では、\に0が続く時は<NUL> (\u0000) として解釈し、1-9で始まる数字が続く時は後方参照として解釈、その際対応する()が正規表現中に存在しなければエラーと定められています。
V modeでなくとも肯定先読みを使うことで文字クラス同士のAND (intersection) 演算が出来ます（例：/(?=\p{sc=Latin})\p{Ll}/ → ラテン文字の小文字にのみマッチ）。またこの応用で、否定先読みを使うと減算相当の処理 (difference/subtraction) も出来ます（例：/(?!\p{sc=Latin})\p{Ll}/ → ラテン文字ではない小文字にマッチ）。

std::regexへの拡張

Unicode対応

　Unicode対応のために、次のような型がSRELLには追加されています。

基本3クラス (`basic_regex`, `match_results`, `sub_match`) の`typedef`一覧
Prefixと文字列の解釈	Tの型	`basic_regex<T> (-regex)`	`match_results<T> (-cmatch) (-smatch)`	`sub_match<T> (-csub_match) (-ssub_match)`	備考
`u8- (UTF-8)`	`char8_t` または `char`	`u8regex`	`u8cmatch` `u8smatch`	`u8csub_match` `u8ssub_match`	コンパイラがC++20以降に準拠する時は`char8_t`型、それ以外は`char`型で特殊化。後者の場合は後述する`u8c-`型の単なる別名 (`typedef`) 。
`u16- (UTF-16)`	`char16_t`	`u16regex`	`u16cmatch` `u16smatch`	`u16csub_match` `u16ssub_match`	コンパイラがC++11以降に準拠する時のみ定義される。
`u32- (UTF-32)`	`char32_t`	`u32regex`	`u32cmatch` `u32smatch`	`u32csub_match` `u32ssub_match`	コンパイラがC++11以降に準拠する時のみ定義される。
`u8c- (UTF-8)`	`char`	`u8cregex`	`u8ccmatch` `u8csmatch`	`u8ccsub_match` `u8cssub_match`
`u16w- (UTF-16)`	`wchar_t`	`u16wregex`	`u16wcmatch` `u16wsmatch`	`u16wcsub_match` `u16wssub_match`	`WCHAR_MAX`が`0xFFFF`以上、`0x10FFFF`未満の場合のみ。
`u32w- (UTF-32)`		`u32wregex`	`u32wcmatch` `u32wsmatch`	`u32wcsub_match` `u32wssub_match`	`WCHAR_MAX`が`0x10FFFF`以上の場合のみ。
`u1632w-`		`u1632wregex`	`u1632wcmatch` `u1632wsmatch`	`u1632wcsub_match` `u1632wssub_match`	`WCHAR_MAX`の値によって、上記 `u16w-` または `u32w-` の別名となる。

　各prefixの意味するところは次の通りです。

u8: コンパイラがchar8_t型に対応しているかどうか（__cpp_char8_t定義の有無で判断）で次のように変わります。
- char8_t対応なら：char8_t型配列またはstd::u8string型インスタンスをUTF-8文字列として扱う。
- char8_t未対応なら：後述のu8c-に同じ。単なる別名としてtypedefされる。
C++20ではUTF-8の文字列リテラル (u8"...") の型がcharからchar8_tに変更されましたが、上記の切替によりSRELLのu8-型は常にu8"..."に適するようになっています。
u16: char16_t型配列またはstd::u16string型インスタンスをUTF-16文字列として扱う。 UTF-16の文字列リテラル (u"...") に適しています。
u32: char32_t型配列またはstd::u32string型インスタンスをUTF-32文字列として扱う。 UTF-32の文字列リテラル (U"...") に適しています。

u8c: char型配列またはstd::string型インスタンスをUTF-8文字列として扱う（SRELL 2.100で導入。SRELL 2.002まではこれがu8-というprefixを使用していました）。
u16w: wchar_t型配列またはstd::wstring型インスタンスをUTF-16文字列として扱う（WCHAR_MAXが0xFFFF以上0x10FFFF未満の時のみ定義される）。
u32w: wchar_t型配列またはstd::wstring型インスタンスをUTF-32文字列として扱う（WCHAR_MAXが0x10FFFF以上の時のみ定義）。
u1632w: WCHAR_MAXが0xFFFF以上0x10FFFF未満なら上記u16wに同じ。WCHAR_MAXが0x10FFFF以上なら上記u32wに同じ。上記u16w-, u32w-と異なり、このu1632w-型はWCHAR_MAXが0xFFFF以上なら常に定義される。 SRELL 2.930以降で利用可能。

※u16w-型とu32w-型とはWCHAR_MAXの大きさによって排他的に定義されます。そのせいでソースコードのポータビリティーに問題が発生しうるということに後になって気づいたため、SRELL 2.930でu1632w-が導入されました。

　先の表では省略しましたが、このルールに基づいてregex_iterator, regex_iterator2, regex_token_iteratorでも同じようにu(8c?|16w?|32w?|1632w) prefixの付いた型がtypedefされています。

　Unicode対応版の基本的な使い方は次の通りです。

srell::u8regex u8re(u8"UTF-8文字列による正規表現");
srell::u8cmatch u8cm;   //  検索対象がbasic_string型なら-smatch。以下同様。
std::printf("%s\n", srell::regex_search(u8"検索対象となるUTF-8文字列", u8cm, u8re) ? "found!" : "not found...");

srell::u16regex u16re(u"UTF-16文字列による正規表現");
srell::u16cmatch u16cm;
std::printf("%s\n", srell::regex_search(u"検索対象となるUTF-16文字列", u16cm, u16re) ? "found!" : "not found...");

srell::u32regex u32re(U"UTF-32文字列による正規表現");
srell::u32cmatch u32cm;
std::printf("%s\n", srell::regex_search(U"検索対象となるUTF-32文字列", u32cm, u32re) ? "found!" : "not found...");

srell::u1632wregex u1632wre(L"UTF-16またはUTF-32の文字列による正規表現");
srell::u1632wcmatch u1632wcm;
std::printf("%s\n", srell::regex_search(L"検索対象となるUTF-16またはUTF-32の文字列", u1632wcm, u1632wre) ? "found!" : "not found...");

srell::u16wregex u16wre(L"UTF-16文字列による正規表現");
srell::u16wcmatch u16wcm;
std::printf("%s\n", srell::regex_search(L"検索対象となるUTF-16文字列", u16wcm, u16wre) ? "found!" : "not found...");
    //  上3行と下3行とは排他的。wchar_tが21ビット未満なら上、以上なら下。
srell::u32wregex u32wre(L"UTF-32文字列による正規表現");
srell::u32wcmatch u32wcm;
std::printf("%s\n", srell::regex_search(L"検索対象となるUTF-32文字列", u32wcm, u32wre) ? "found!" : "not found...");

syntax_option_type

　次のフラグオプションが追加されています。

namespace regex_constants
{
    static const syntax_option_type dotall;  //  （SRELL 2.000以降）
        //  シングルライン指定。'.' の挙動を変える。ECMAScript 2018 (ES9) 以降のsフラグ (/.../s) に相当。

    static const syntax_option_type unicodesets;  //  （SRELL 4.000以降）
    static const syntax_option_type vmode;  //  （SRELL 4.066以降。上の別名）
        //  vモードを使用する。

    static const syntax_option_type sticky;  //  （SRELL 4.049以降）
        //  このフラグを指定して作られた正規表現インスタンスは、検索時にmatch_continuousが
        //  暗黙のうちにセットされる。ECMAScriptのyフラグ (/.../y) に相当。
        //  検索対象文字列 [begin, end) のうち begin の位置からしか照合が試みられぬので、
        //  regex_iterator, regex_iterator2, regex_token_iterator などでは使えぬことに注意。

    static const syntax_option_type quiet;  //  （SRELL 4.066以降）
        //  コンパイル時、検索時ともにregex_error型の例外をthrowしなくなる。
        //  コンパイル時のエラーはbasic_regex::ecode()にて、検索時のエラーはmatch_results::ecode()にて
        //  それぞれ読み出し可能。
}

　他のsyntax_option_type型の値と同様に、これらの値はbasic_regex内でも定義されています。

　stickyフラグのメリットは、regex_search()にmatch_continuousフラグを渡した時（またはregex_match()使用時）には利用されず無駄になる最適化処理がコンパイル時に飛ばされることです。そのためパターンコンパイル処理が通常より早く終わることが期待できます。

error_type

　次のerror_type値が追加されています。

namespace regex_constants
{
    static const error_type error_utf8; //  （SRELL 2.630以降）
        //  basic_regexに渡された正規表現中に、不正なUTF-8のシークウェンスが見つかった。

    static const error_type error_property; //  （SRELL 3.010以降）
        //  \p{...}または\P{...}で、対応していないUnicodeプロパティー名または値が指定された。

    static const error_type error_noescape; //  （SRELL 4.000以降。vモードのみ）
        //  文字クラス内で ( ) [ ] { } / - \ | は \ を前置してエスケープする必要あり。

    static const error_type error_operator; //  （SRELL 4.000以降。vモードのみ）
        //  文字クラスの演算エラー。
        //  予約されている二重記号を使用した。または同じ階層で異なる演算をした。

    static const error_type error_complement; //  （SRELL 4.000以降。vモードのみ）
        //  文字列の補集合を使おうとした。
        //  \P{POSName}、[^\p{POSName}]、[^\q{strings}]（POSNameは文字列プロパティー名）が見つかった。

    static const error_type error_modifier; //  （SRELL 4.007以降）
        //  埋込フラグの (?ims-ims) 形式を先頭以外で使った。または一つの括弧内で同じフラグを複数回指定した。
}

例外なしモード

　エラー発生時にregex_error型の例外をthrowさせない方法として次の2つがあります。

方法1：正規表現のパターンコンパイル時にquietオプションをつける（SRELL 4.066以降で有効）。
例外を投げるかどうかはランタイムにチェックされますので、例外をthrowする仕組みそのものはバイナリの中に存在することになります。
方法2：SRELLをincludeする前にあらかじめSRELL_NO_THROWマクロを定義しておく（SRELL 4.034以降で有効）。
例外をthrowするコードそのものが無効化され、実行ファイルへも出力されなくなります。

　どちらの場合も、コンパイル時に発生したエラーはbasic_regex::ecode()によって、検索時に発生したエラーはmatch_results::ecode()によって、それぞれ読み出すことが出来ます。エラーが発生していなければどちらも0が返ってきます。

　抑止できるのはregex_error型の例外のみです。メモリ確保失敗時にはstd::bad_allocがthrowされます。

　エラー発生時には、アルゴリズム函数 (regex_search(), regex_match()) は false を返します。

　regex_iterator, regex_iterator2においては、検索時にエラーが発生すると即時にend-of-sequenceイテレータになります。これらのイテレータは内部に持つmatch_results型インスタンスを指し示してしますので、反復が完了してend-of-sequenceになったのか、エラーによってそうなったのかはit->ecode()にて判別可能です。

　一方regex_token_iteratorはsub_matchを指しているため、その外側のmatch_results::ecode()にアクセスする方法がありません。そこでversion 4.065でecode()メンバをregex_token_iteratorクラスに追加しました。

regex_search()

3イテレータ版

　SRELL 2.600以降、引数としてBidirectionalIteratorを3つ取るオーヴァーロードが追加されています。

template <class BidirectionalIterator, class Allocator, class charT, class traits>
bool regex_search(
    BidirectionalIterator first,
    BidirectionalIterator last,
    BidirectionalIterator lookbehind_limit,
    match_results<BidirectionalIterator, Allocator> &m,
    const basic_regex<charT, traits> &e,
    const regex_constants::match_flag_type flags = regex_constants::match_default);

　3つ目のイテレータであるlookbehind_limitは、戻り読み (lookbehind) が行われる際の「逆行して良い限界位置」を指定するためのものです。
　違う言い方をしますと、この3イテレータ版では「検索対象範囲 [lookbeind_limit, last) の途中、firstから検索を始める」という処理が行われます。

const char text[] = "0123456789abcdefghijklmnopqrstuvwxyz";
const char* const begin = text;
const char* const end = text + std::strlen(text);
const char* const first = text + 10;    //  'a' の位置に合わせる。
const srell::regex re("(?<=^\\d+).");
srell::cmatch match;

std::printf("matched %d\n", srell::regex_search(first, end, match, re));
    //  戻り読みも [first, end) の範囲でのみ行われるのでマッチしない。

std::printf("matched %d\n", srell::regex_search(first, end, begin, match, re));
    //  beginまで逆行できるのでマッチする。
    //  即ち3イテレータ版は、[begin, end) というシークウェンスに対して
    //  firstよりsearchを始める。

　上の例にもあります通り3イテレータ版では、^ は first（第1引数として渡したほう）ではなく begin（第3引数として渡したほう）にマッチするようになります。

　また3イテレータ版使用時には、match_resultsのposition()は第3引数として渡した位置からの距離を返すようになります。これに対してmatch_resultsのprefix().firstには、第1引数として渡した位置がセットされます。

Note

3イテレータ版追加に伴い、SRELL 2.300～2.500で導入していた指定方法は廃止しました。
match_resultsを引数に取らないoverloadはAPI簡素化のため4.065で廃止しました。

位置指定付きbasic_string版

　SRELL 4.065以降、検索対象がbasic_stringである場合、検索開始位置を指定できるオーヴァーロードが追加されています。

template <class ST, class SA, class Allocator, class charT, class traits>
bool regex_search(
    const std::basic_string<charT, ST, SA> &s,
    const std::size_t start,
    match_results<typename std::basic_string<charT, ST, SA>::const_iterator, Allocator> &m,
    const basic_regex<charT, traits> &e,
    const regex_constants::match_flag_type flags = regex_constants::match_default);

　これはregex_search(s.begin() + start, s.end(), s.begin(), m, e, flags)と書いた場合と同じように振る舞います。

match_results

名前付きキャプチャ用のoverload函数

　SRELL 2.000以降では名前付きキャプチャ (named-capture) 用に、次のメンバ函数がmatch_resultsクラスに追加されています。

difference_type length(const string_type &sub) const;
difference_type position(const string_type &sub) const;
string_type str(const string_type &sub) const;
const_reference operator[](const string_type &sub) const;

//  以下はSRELL 2.650以降。
difference_type length(const char_type *sub) const;
difference_type position(const char_type *sub) const;
string_type str(const char_type *sub) const;
const_reference operator[](const char_type *sub) const;

　使い方は<regex>にある同名の函数と同じです。ただ引数として括弧の番号ではなく括弧の名前を渡すという点のみが異なります。

//  使用例。
srell::regex e("-(?<digits>\\d+)-");
srell::cmatch m;

if (srell::regex_search("1234-5678-90ab-cdef", m, e))
{
    const std::string by_number(m.str(1));      //  std::regexにもある括弧の番号を使ったアクセス。
    const std::string by_name(m.str("digits")); //  名前を使って同じ括弧へアクセス。SRELLの独自拡張。

    std::printf("results: bynumber=%s byname=%s\n", by_number.c_str(), by_name.c_str());
}
//  results: bynumber=5678 byname=5678 と表示される。

Version 4.033まで：正規表現中に存在しないグループ名を渡した場合、error_backrefがthrowされます。
Version 4.034以降：正規表現中に存在しないグループ名を渡した場合にもエラー扱いとはならず、matchedメンバがfalseになっているsub_match型インスタンスへの参照が返ってきます。

format()の書式文字列

　名前付きキャプチャ用に $<NAME> というシンボルが追加されています。

書式文字列として使えるテキストシンボル一覧
テキストシンボル	置換テキスト
`$$`	`$`そのもの。
`$&`	マッチした箇所全体。
$`	マッチした箇所に先行する部分。
`$'`	マッチした箇所より後方の部分。
`$1 $2 $3 $4 $5 $6 $7 $8 $9` （後ろに数字が続かぬこと）	正規表現中の対応する括弧で捕獲された文字列。該当する括弧が何も捕獲していない場合は空文字に置換される。正規表現中のキャプチャ括弧の個数より大きな数が指定された場合は置換されず。
`$nn`（`nn`は01から99までの範囲）	正規表現中の対応する括弧で捕獲された文字列。該当する括弧が何も捕獲していない場合は空文字に置換される。正規表現中のキャプチャ括弧の個数より大きな数が指定された場合は置換されず。
`$<NAME>`	名前付きキャプチャ用の追加分正規表現中に「名前付きキャプチャ」が存在しない場合、置換されずそのまま出力される。存在する場合、`NAME`という名前の丸括弧によって捕獲された文字列と置換される。`NAME`に相当する名前のグループ名が正規表現中にないか、あっても何もキャプチャされていなければ空文字列に置換される。

ecode() const

　直前に呼んだアルゴリズム函数内で発生したエラー値を返します。SRELL 4.034以降に実装されている「例外なしモード」用です。
　返されるエラー値は、regex_error::code()と同じerror_type型の整数です。直前のアルゴリズム函数呼び出しでエラーが発生していない時は0を返します。

//  std::regex互換のエラー処理。
srell::cmatch cm;

try {
    srell::regex re("a*");
    regex_search(text, cm, re);
} catch (const srell::regex_error &e) {
    //  エラー処理。
}

//  No throw/exceptionモードのエラー処理。
srell::smatch m;

srell::regex re("a*");
regex_search(text, m, re);
if (m.ecode()) //  非0ならエラーが発生した。
    //  エラー処理。

　Version 4.069以降はsrell::regex_error(m.ecode()).what()のようにすることでエラー名を取得することもできます。

basic_regex

　SRELL 4.009以降、SRELLのbasic_regexクラスには次のメンバ函数が独自拡張して追加されています。

match(): srell::regex_match()と同じ処理を行う。
search(): srell::regex_search()と同じ処理を行う。

　SRELL 4.100以降ではパターンコンパイラ（コンストラクタ、operator=()、assign()の3種）のうち、従来std::basic_string型の引数を取っていたものはcontiguous_container_view型の引数を取るように変更されています。

contiguous_container_view

　contiguous_container_viewとはstd::string_view風のviewクラスです。この型の仮引数に対しては、次の2つの条件を満たすコンテナなら何でも渡せます：「1) 要素がcontiguousに保持されていること」「2) その先頭アドレスを返すdata()メンバ函数と、長さを返すsize()メンバ函数とがあること」
　basic_stringやbasic_string_viewに加えて、std::vector（data()メンバを持つのはC++11以降）やstd::arrayなどがこの条件に該当します。
　なおこのクラスは仮引数用に定義されているもので、SRELLの外部で直接使用されることは想定していません。

match() const

　srell::regex_match()と同じ処理を行います。basic_regex型インスタンスをreとした時、re.match(...)は、srell::regex_match(..., re, ...)のように書いたのと同じです。

　以下のようなoverload函数があります。引数の順番はregex_match()と同じく、検索対象文字列、match_results型インスタンス、match_flag_typeの値（任意）の順です。

template <typename BidirectionalIterator, typename Allocator> bool match( const BidirectionalIterator begin, const BidirectionalIterator end, match_results<BidirectionalIterator, Allocator> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_match(begin, end, m, re, flags) に同じ。	(1)
template <typename Allocator> bool match( const charT const str, match_results<const charT , Allocator> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_match(str, m, re, flags) に同じ。	(2)
template <typename ST, typename SA, typename MA> bool match( const std::basic_string<charT, ST, SA> &s, match_results<typename std::basic_string<charT, ST, SA>::const_iterator, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_match(s, m, re, flags) に同じ。	(3)
// Version 4.069以降。 template <typename MA> bool match( const contiguous_container_view c, match_results<const charT *, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const;	(4) ※4.069以降。

　(4)のようなcontiguous_container_viewを引数に取るoverloadを使う時は、match_resultsはcmatch系を使用します（smatch系はstd::basic_stringのイテレータ専用です）。
　std::basic_stringをsmatch系とセットで引数として渡した場合は(3)が呼ばれ、cmatch系と渡した場合は(4)が呼ばれます。

2025/02/14追記：Version 4.057で誤って削除してしまっていました。Version 4.064で引数にmatch_resultsを取るoverloadsのみ復活させ、match_resultsを取らぬoverloadsについてはそのまま廃止としました。

search() const

　srell::regex_search()と同じ処理を行います。basic_regex型インスタンスをreとした時、re.search(...)は、srell::regex_search(..., re, ...)のように書いたのと同じです。

　以下のようなoverload函数があります。引数の順番はregex_search()と同じく、検索対象文字列、match_results型インスタンス、match_flag_typeの値（任意）の順です。

template <typename BidirectionalIterator, typename Allocator> bool search( const BidirectionalIterator begin, const BidirectionalIterator end, match_results<BidirectionalIterator, Allocator> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_search(begin, end, m, re, flags) に同じ。	(1)
template <typename Allocator> bool search( const charT const str, match_results<const charT , Allocator> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_search(str, m, re, flags) に同じ。	(2)
template <typename ST, typename SA, typename MA> bool search( const std::basic_string<charT, ST, SA> &s, match_results<typename std::basic_string<charT, ST, SA>::const_iterator, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_search(s, m, re, flags) に同じ。	(3)
// 以下はstd::regex_search()にはありません。
template <typename BidirectionalIterator, typename Allocator> bool search( const BidirectionalIterator begin, const BidirectionalIterator end, const BidirectionalIterator lookbehind_limit, match_results<BidirectionalIterator, Allocator> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_search(begin, end, lookbehind_limit, m, re, flags) に同じ。	(4)
// Version 4.065以降。 template <typename ST, typename SA, typename MA> bool search( const std::basic_string<charT, ST, SA> &s, const std::size_t start, match_results<typename std::basic_string<charT, ST, SA>::const_iterator, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const; // srell::regex_search(s, start, m, re, flags) に同じ。	(5) ※4.065以降。
// Version 4.069以降。 template <typename MA> bool search( const contiguous_container_view c, match_results<const charT *, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const;	(6) ※4.069以降。
// Version 4.069以降。 template <typename MA> bool search( const contiguous_container_view c, const std::size_t start, match_results<const charT *, MA> &m, const regex_constants::match_flag_type flags = regex_constants::match_default) const;	(7) ※4.065以降。

　(6)(7)のようなcontiguous_container_viewを引数に取るoverloadsを使う時は、match_resultsはcmatch系を使用します（smatch系はstd::basic_stringのイテレータ専用です）。
　std::basic_stringをsmatch系とセットで引数として渡した場合は(3)ないし(5)が呼ばれ、cmatch系と渡した場合は(6)ないし(7)が呼ばれます。

ecode() const

　直前のパターンコンパイルで発生したエラー値を返します。SRELL 4.034以降に実装されている「例外なしモード」用です。
　返されるエラー値は、regex_error::code()と同じerror_type型の整数です。直前のコンパイルでエラーが発生していない時は0を返します。

//  std::regex互換のエラー処理。
try {
    srell::regex re("a{2,1}");
} catch (const srell::regex_error &e) {
    //  e.code() == srell::regex_constants::error_badbrace
}

//  No throw/exceptionモードのエラー処理。

srell::regex re("a{2,1}");
//  re.ecode() == srell::regex_constants::error_badbrace

　Version 4.069以降はsrell::regex_error(re.ecode()).what()のようにすることでエラー名を取得することもできます。

regex_iterator2

　SRELL 4.013以降、regex_iterator2が追加されています。Grep, replace, splitなどをこれ1つでまかなえるように、regex_iteratorに次のような変更を加えたものです。

イテレータが0幅を指している状態で++された時の特例（フラグにmatch_not_null | match_continuousを付加して、その位置から再度regex_search()する）を削除。
これは、このイテレータを使って置換処理した時の結果がJavaScript互換になることを目的とした変更です（例は後述）。
インスタンスの使い回しを可能とするassign()を追加。
置換やsplit用のヘルパー函数を追加。

template <typename BidirectionalIterator,
    typename BasicRegex = basic_regex<typename std::iterator_traits<BidirectionalIterator>::value_type,
        regex_traits<typename std::iterator_traits<BidirectionalIterator>::value_type> >,
    typename MatchResults = match_results<BidirectionalIterator> >
class regex_iterator2
{
    typedef typename std::iterator_traits<BidirectionalIterator>::value_type char_type;
    typedef BasicRegex regex_type;
    typedef MatchResults value_type;
    typedef std::ptrdiff_t difference_type;
    typedef const value_type *pointer;
    typedef const value_type &reference;
    typedef std::input_iterator_tag iterator_category;

    //  以下、メンバー函数……

　見にくくて分かりづらいかもしれませんが、テンプレート引数の2つ目はbasic_regexの型、3つ目はmatch_resultsの型です。regex_iteratorよりも単純化してあります。
　regex_iteratorに倣って次のtypedefが定義済みです。

typedef regex_iterator2<const char *> cregex_iterator2;
typedef regex_iterator2<const wchar_t *> wcregex_iterator2;
typedef regex_iterator2<std::string::const_iterator> sregex_iterator2;
typedef regex_iterator2<std::wstring::const_iterator> wsregex_iterator2;

//  charでUTF-8文字列を処理する。
typedef regex_iterator2<const char *, u8cregex> u8ccregex_iterator2;
typedef regex_iterator2<std::string::const_iterator, u8cregex> u8csregex_iterator2;

//  char16_t, char32_t利用可能時のみ定義。
typedef regex_iterator2<const char16_t *> u16cregex_iterator2;
typedef regex_iterator2<const char32_t *> u32cregex_iterator2;
typedef regex_iterator2<std::u16string::const_iterator> u16sregex_iterator2;
typedef regex_iterator2<std::u32string::const_iterator> u32sregex_iterator2;

//  char8_t利用可能時のみ定義。
typedef regex_iterator2<const char8_t *> u8cregex_iterator2;
//  std::u8string利用可能時のみ定義。
typedef regex_iterator2<std::u8string::const_iterator> u8sregex_iterator2;

//  char8_tがない時のみ定義。
typedef u8ccregex_iterator2 u8cregex_iterator2;
//  std::u8stringがない時のみ定義。
typedef u8csregex_iterator2 u8sregex_iterator2;

//  WCHAR_MAXが0x10FFFF以上の時のみ定義。
typedef wcregex_iterator2 u32wcregex_iterator2;
typedef wsregex_iterator2 u32wsregex_iterator2;
typedef u32wcregex_iterator2 u1632wcregex_iterator2;
typedef u32wsregex_iterator2 u1632wsregex_iterator2;

//  WCHAR_MAXが0xFFFF以上、10FFFF未満の時のみ定義。
typedef regex_iterator2<const wchar_t *, u16wregex> u16wcregex_iterator2;
typedef regex_iterator2<std::wstring::const_iterator, u16wregex> u16wsregex_iterator2;
typedef u16wcregex_iterator2 u1632wcregex_iterator2;
typedef u16wsregex_iterator2 u1632wsregex_iterator2;

コンストラクタ

　regex_iteratorと同じように、end-of-sequenceイテレータを作る「引数なし版」と、通常版とがあります。

regex_iterator2() {} // End-of-sequence iteratorを作る。	(1)
regex_iterator2( const BidirectionalIterator a, const BidirectionalIterator b, const regex_type &re, const regex_constants::match_flag_type m = regex_constants::match_default);	(2)

assign()

　イテレータのインスタンスを再作成します。引数は通常版のコンストラクタと同じです。

void assign( const BidirectionalIterator a, const BidirectionalIterator b, const regex_type &re, const regex_constants::match_flag_type m = regex_constants::match_default);

(1)

done() const

　Iteratingが終端まで行ったならtrueを、まだならfalseを返します。

bool done() const;

　regex_iteratorと同じように、引数なしのコンストラクタでend-of-sequenceイテレータを作り、それとの比較がtrueになるまでforループでぐるぐる回すという方法も使えますが、このdone()を使うともっと簡単に判定できます。

srell::sregex_iterator2 eit;
srell::sregex_iterator2 it(text.begin(), text.end, re);

//  for (; it != eit; ++it) {   //  下と同じ。
for (; !it.done(); ++it) {
    //  何かする。
}

replace()

　コンストラクタに渡した範囲がstd::basic_string型インスタンスの一部であり、かつイテレータ作成後に余所でサイズ変更をしていない（メモリの割り当て位置が移動していない）場合は、イテレータのreplace()メンバ函数により、現在マッチしている箇所 ((*it)[0]) を別の文字列に置き換えることが出来ます。

　regex_iterator2::replace()はstd::basic_string型の文字列全体のインスタンスを第1引数、置換用文字列を第2引数として取ります。

// [entire.begin(), entire.end()) 内の // [(it)[0].first, (it)[0].second) の範囲を // replacementないし[begin, end)に置換する。
template <typename ST, typename SA> void replace(std::basic_string<char_type, ST, SA> &entire, const std::basic_string<char_type, ST, SA> &replacement);	(1)
template <typename ST, typename SA> void replace(std::basic_string<char_type, ST, SA> &entire, BidirectionalIterator begin, BidirectionalIterator end);	(2)
template <typename ST, typename SA> void replace(std::basic_string<char_type, ST, SA> &entire, const char_type *const replacement);	(3)

　置換により検索対象文字列が伸び縮みした場合はそれに合わせてイテレータ内部の位置情報を修正し、またメモリの再割り当てが発生した場合は位置情報を自動的に作り直します。

　regex_iterator2::replace()の使用例と、regex_iteratorとの違いとを示すサンプルプログラムです。

#include <cstdio>
#include <string>
#include <regex>
#include "srell.hpp"

template <typename Iterator, typename Regex>
void replace(const Regex &re, const std::string &text, const char *const title) {
    std::string::const_iterator prevend = text.begin();
    Iterator it(text.begin(), text.end(), re), eit;
    std::string out;

    for (; it != eit; ++it) {
        out += it->prefix();
        out += ".";
        prevend = (*it)[0].second;
    }

    const std::string::const_iterator end = text.end();
    out.append(prevend, end);
    std::printf("[%s] by %s\n", out.c_str(), title);
}

int main() {
    std::string text("a1b");
    std::regex re1("\\d*?");
    srell::regex re2("\\d*?");

    replace<std::sregex_iterator>(re1, text, "std::sregex_iterator");
    replace<srell::sregex_iterator>(re2, text, "srell::sregex_iterator");
    replace<srell::sregex_iterator2>(re2, text, "srell::sregex_iterator2");

    srell::sregex_iterator2 it(text, re2);
    for (; !it.done(); ++it)
        it.replace(text, ".");  //  replace()の使用。
    std::printf("[%s] by srell::sregex_iterator2::replace()\n", text.c_str());

    return 0;
}
---- 実行結果 ----
[.a...b.] by std::sregex_iterator
[.a...b.] by srell::sregex_iterator
[.a.1.b.] by srell::sregex_iterator2
[.a.1.b.] by srell::sregex_iterator2::replace()

　regex_iteratorを使った置換では前述の特例により "1" の部分が置換されてしまっているのに対して、JavaScript互換の振る舞いをする下2つではそのまま残っています。

　ちなみにこのstd::regex_iteratorの振る舞いは何に準拠したものなのか不明です。Perlの挙動とも異なっているようです。std::regexの元となったboost::regexは初期からずっとPerl指向ですので、ひょっとすると過去のPerlのいずれかの版に合わせた挙動なのかもしれません。

Split用補助函数

　イテレータがマッチした箇所のprefixと、最後にマッチした箇所より後ろの部分を集めるとsplit相当の処理となります（下図参照。itはイテレータ）。

(*it)[0]とit->prefix()とが指す位置
対象文字列	間	マッチ1箇所目	間	マッチ2箇所目	間
イテレータ it	1回目の it->prefix()	(*it)[0]	2回目の it->prefix()	(*it)[0]	2回目の it->suffix()

　そこでsplitにも対応できるように、上図の青いところを集めやすくするためのヘルパ函数を用意しました。

bool split_ready();
//  現在のit->prefix()がsplitされた文字列として有効な範囲を
//  指しているか否かを返す。判断基準はECMAScriptのsplit()準拠
//  (it->prefix().first != (*it)[0].second)。
//  即ち、正規表現が0幅にマッチしうる時のみfalseが返ってくることもある。

const typename value_type::value_type &remainder(bool only_after_match = false);
//  繰り返し完了または中断時点の残余区間を取り出す。上表の「2回目のit->suffix()」の部分。
//  戻り値value_type::value_typeはsub_match型。
//  イテレータitが一度もマッチしていない場合、it->suffix()は未定義値を返すのに対して、
//  このit.remainder()は常に有効な範囲を返す。
//  引数がtrueかつ前回のマッチが成功していたら、マッチした位置の終わり ((*it)[0].second) 以降を返す。
//  それ以外は検索開始位置 (it->prefix().first) 以降を返す。

　もっとも単純なsplit処理は次の通りです。

for (; !it.done(); ++it) {
    if (it.split_ready())
        list.push_back(it->prefix());
}
list.push_back(it.remainder());

　他言語のsplitによくある「正規表現に括弧が含まれていた場合は、それがキャプチャしたものも追加する」処理や、分割回数 (LIMIT) を指定する機能も追加したい場合は次のように書きます。

for (std::size_t count = 0; !it.done(); ++it) {
    if (it.split_ready()) {
        if (++count == LIMIT)
            break;
        list.push_back(it->prefix());   //  *1
        for (std::size_t i = 1; i < it->size(); ++i) {
            if (++count == LIMIT) {
                list.push_back(it.remainder(true));
                //  上 (*1) でpush済みのprefix()区間を除外するため
                //  trueにする。
                return;
            }
            list.push_back((*it)[i]);
        }
    }
}
list.push_back(it.remainder());

　ヘルパーを使っても長くなってしまうので、さらなるヘルパ函数を用意しました。
　上のコードは次のように書けます。

std::size_t count = 0;
for (it.split_begin(); !it.done(); it.split_next()) {
    if (++count == LIMIT)
        break;
    list.push_back(it.split_range());
}
list.push_back(it.split_remainder());   //  remainder()ではなくsplit_remainder()であることに注意。

void split_begin();
//  split_ready() が true を返す最初の位置まで移動する。
//  このメンバ函数は最初に一回だけ呼ばれることを想定している。

bool split_next();
//  split_ready() が true を返す次の位置まで移動する。
//  そのような位置に移動できたらtrueを、done() == trueになってしまったら
//  falseを返す。このメンバ函数は通常のoperator++()の代わりに使われることを意図している。

const typename value_type::value_type &split_range() const;
//  イテレータが現在指し示している範囲（sub_match型インスタンスへの参照）を返す。

const typename value_type::value_type &split_remainder();
//  Iteratingが終わった後もしくは中断した後にこのメンバ函数を呼ぶと、
//  最後にマッチした位置以降の範囲（sub_match型インスタンスへの参照）が返ってくる。
//  上の remainder() とは異なり、only_after_match に相当するbool値は自動的に計算される。

//  Version 4.049以降。
const typename value_type::value_type &split_aptrange();
//  done()がfalseを返す時はreturn split_range()する。
//  trueならreturn split_remainder()する。

　分割したものすべてに対して同じ処理をしたい時向けに、SRELL 4.049以降にはsplit_aptrange()が追加されています。

for (it.split_begin();; it.split_next()) {
    list.push_back(it.split_aptrange());    //  これは次のコードに同じ。
    //  list.push_back(!it.done() ? it.split_range() : it.split_remainder());

    if (it.done())
        break;
}

その他のメンバ

　他には次のようなメンバ函数があります。

regex_iterator2 &operator=(const regex_iterator2 &right);

bool operator==(const regex_iterator2 &right) const;
bool operator!=(const regex_iterator2 &right) const;

const value_type &operator*() const;
const value_type *operator->() const;

regex_iterator2 &operator++()
regex_iterator2 operator++(int)

　前述の通りoperator++()に特例がないことを除いては、regex_iteratorの同名メンバ函数と同じように振る舞います。

註・ここに明記されていないAPIがあった場合、それらはすべて試験的なものです。予告なく仕様が変更されたり時には削除されたりすることもあり得ます。

regex_token_iterator

ecode() const

　直前の検索でエラーが発生していたらその値を返します。SRELL 4.034以降に実装されている「例外なしモード」用です。
　返されるエラー値は、regex_error::code()と同じerror_type型の整数です。直前の検索でエラーが発生していない時は0を返します。

長考対策

　ECMAScriptの正規表現（およびその元となったPerlの正規表現）では通常、バックトラッキングと呼ばれる方法を使って照合が行われます。このバックトラッキング方式には、「繰り返しが入れ子になっている正規表現」や「量指定子（回数指定）を伴う文字ないし文字クラスが連続していて、かつそれらが互いに排他的な集合になっていない正規表現」で検索を行うと、オートマトンが著しい長考に入ってしまうことがあるという問題が存在します。

　次のような例が有名です。

"aaaaaaaaaaaaaaaaaaaaaaaaaaaaa" =~ /(a*)*b/
"aaaaaaaaaaaaaaaaaaaaaaaaaaaaa" =~ /a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?aaaaaaaaaaaaaaaaaaaaaaaaaaaaa/

　残念ながらこの現象に対しては、あらゆる状況に適用できる根本的な解決策というものが見つかっていません。そこで制御が長時間返ってこなくなる事態を避けるため、SRELLは特定の位置からの照合が一定回数以上失敗すると、regex_error(regex_constants::error_complexity) を throw するようになっています。
　回数の既定値は2097152（1 << 21. 128の3乗。SRELL 4.054までは16777216=256の3乗）ですが、アルゴリズム函数（regex_search()やregex_match()など）に渡すbasic_regex型インスタンスのlimit_counter変数に任意の値を代入することで変更することも出来ます。

安全対策

　SRELLのパターンコンパイラは次の場合に自分自身を再帰呼び出しします。

グループ（キャプチャする括弧、キャプチャなしの括弧、先読み、戻り読み）をパーズする時。
（Vモード限定）[]の中にある別の[]をパーズする時。

　通常、函数の呼び出しにはスタックが使用されますので、正規表現中に入れ子になったグループや文字クラスがあり、その階層があまりに深いとスタック溢れが発生してプログラムが止まってしまうということも起こりえます。
　これを防止するため、SRELL 4.065以降は再帰呼び出しの深さがSRELL_MAX_DEPTHを超えると、error_complexityをthrowするようになっています。

　SRELL_MAX_DEPTHの既定値は256ですが、SRELLをincludeする前に#define SRELL_MAX_DEPTH 1024のようにして先に定義したり、コンパイラオプションに-DSRELL_MAX_DEPTH=512のように指定したりすることで、値を上書きすることも可能です。

SRELL_NO_UNICODE_ICASE	大文字小文字を区別しない検索（icase検索）時に使用するUnicodeのcase foldingデータを切り離します。 `icase`フラグが使用された時は、ASCIIの範囲のみcase-foldingが行われます（[A-Z] → [a-z]のみ）。
SRELL_NO_UNICODE_PROPERTY	Unicodeプロパティー用のデータを切り離します。この場合`\p{...}`および`\P{...}`は使用できません。また、名前付きキャプチャ用の名前も厳密にはチェックされず、`'\'` と `'>'` 以外なら何でも名前として受け付けるようになります。このマクロが定義されると、後述する`SRELL_NO_VMODE`も暗黙的に定義されます。
SRELL_NO_UNICODE_DATA	`SRELL_NO_UNICODE_ICASE`と`SRELL_NO_UNICODE_PROPERTY`とが同時にdefineされます。
SRELL_NO_NAMEDCAPTURE	名前付きキャプチャ用のコードを切り離します。
SRELL_NO_VMODE	vモード用のコードを切り離します（SRELL 4.000～4.053のみ）。
SRELL_NO_UNICODE_POS	vモードのproperties of strings用データを切り離します。 SRELL 4.054以降は単独で使用可能ですが、SRELL 4.000～4.053では上のSRELL_NO_VMODEと併用する必要があります。

SRELL_CPP11_CHAR1632_ENABLED	`char16_t`, `char32_t`が使えるにもかかわらず`__cpp_unicode_characters`を定義しないコンパイラ用です。このマクロを定義しておくとSRELLは`u16regex`, `u32regex`などを`typedef`します。
SRELL_CPP11_INITIALIZER_LIST_ENABLED	Initializer listが使えるにもかかわらず`__cpp_initializer_lists`を定義しないコンパイラ用です。
SRELL_CPP11_MOVE_ENABLED	Moveできるにもかかわらず`__cpp_rvalue_references`を定義しないコンパイラ用です。
SRELL_CPP20_CHAR8_ENABLED	`char8_t`が使えるにもかかわらず`__cpp_char8_t`や`__cpp_lib_char8_t`を定義しないコンパイラが用です。このマクロの値が1の時、SRELLは`char8_t`が利用可能と判断します。このマクロの値が2の時はさらに`std::u8string`も利用可能と判断します。

SRELL

目次

概要

Download

使い方

SRELLの正規表現

註

std::regexへの拡張

3イテレータ版

Note

位置指定付きbasic_string版

名前付きキャプチャ用のoverload函数

format()の書式文字列

名前付きキャプチャ用の追加分

ecode() const

contiguous_container_view

match() const

search() const

ecode() const

コンストラクタ

assign()

done() const

replace()

Split用補助函数

その他のメンバ

ecode() const

std::regexとの相違点

`syntax_option_type`（かつ`basic_regex`の`flag_type`）

`match_flag_type`

Tips

その他

今後適用されるかもしれない変更

非互換の変更

関連リンク

ECMAScript (JavaScript) のRegExp関連

提案書（2025/10/10更新）

完了した提案（2025/10/10更新）

SRELL

目次

概要

Download

使い方

SRELLの正規表現

註

std::regexへの拡張

3イテレータ版

Note

位置指定付きbasic_string版

名前付きキャプチャ用のoverload函数

format()の書式文字列

名前付きキャプチャ用の追加分

ecode() const

contiguous_container_view

match() const

search() const

ecode() const

コンストラクタ

assign()

done() const

replace()

Split用補助函数

その他のメンバ

ecode() const

std::regexとの相違点

syntax_option_type（かつbasic_regexのflag_type）

match_flag_type

Tips

その他

今後適用されるかもしれない変更

非互換の変更

関連リンク

ECMAScript (JavaScript) のRegExp関連

提案書（2025/10/10更新）

完了した提案（2025/10/10更新）

`syntax_option_type`（かつ`basic_regex`の`flag_type`）

`match_flag_type`