二次元裏@ふたば
[ホーム]

[掲示板に戻る]
レス送信モード
E-mail
コメント
削除キー(記事の削除用。英数字で8文字以内)
  • 添付可能:GIF,JPG,PNG,WEBM,MP4. 3000KBまで. 現在887人くらいが見てます.
  • スレッドを立てた人がレスを削除してスレッド内のみアク禁にできます.
  • メール欄に「id表示」と入れてスレッドを立てるとid表示にできます.
  • 削除依頼が閾値を超えるとidを表示します.
  • 政治はだめ. 同人関連のアップロード依頼はだめ.
  • 1スレッド最大1000レス,最低1時間保持.
  • 管理人への連絡は準備板 ご意見へ. 削除依頼は記事番号を押しdelを押して下さい.
  • スマホ・携帯ふたば入口 この板の保存数は30000件です. 規約
  • 新しい板: 人工知能 ZOIDS

画像ファイル名:1777306255819.jpg-(58633 B)
58633 B26/04/28(火)01:10:55No.1424516951そうだねx2 06:43頃消えます
学習のために1から正規表現エンジンを書いてきたのだけどだいたいできてきた:
・基本的なメタキャラクタに加えて貪欲さの選択、キャプチャ、先読み・後読みに対応
・Unicodeの書記素クラスタごとにマッチ
・書記素クラスタを分解した上でベース文字にマッチするユニファイ検索
・実行時間に制限をつけてそれを超えたら例外
・マッチ回数に上限をつけてそれを超えたら例外
・検索パターンによってNFA/backtrack/Double Array Aho Corasickエンジンを適宜切り替え
・対象を文字列だけではなくDocumentにもできる

やっと正規表現のこと少し分かりかけてきたよやったぜ
126/04/28(火)01:12:17No.1424517128そうだねx8
1から!?
226/04/28(火)01:14:19No.1424517435そうだねx5
orz
326/04/28(火)01:14:24No.1424517446そうだねx8
何いってるのかわからん
426/04/28(火)01:25:33No.1424518961+
文字の置き換えとかすらよくわからん…ってなるのにすげえな…
.とか*でゴリ押しだぜ
526/04/28(火)01:28:29No.1424519303+
正規化かと思ったら正規表現だった
626/04/28(火)01:29:04No.1424519381+
TompsonVM とか PikeVM までやってるなら JIT と Parallel Regex までやった方が面白いよ
あとxegerみたいなのも面白いよ
726/04/28(火)01:59:18No.1424522737そうだねx14
ろりまんこは関係ないのかよ
性器表現って言いたかっただけかよ
826/04/28(火)03:25:45No.1424529031そうだねx3
>性器表現って言いたかっただけかよ
言われて気づいた…もう駄目だ…
926/04/28(火)03:36:22No.1424529472+
便利ですよねAWK
1026/04/28(火)03:40:54No.1424529632+
すげえな
学生の頃CSVパーサ書くだけでだりぃ〜ってなってたわ
出来上がったらテストだけAIに生成してもらって通るか試そうぜ
1126/04/28(火)03:42:58No.1424529704+
RFC的に正確なメールアドレスの正規表現いいよね
1226/04/28(火)04:22:23No.1424531102そうだねx1
すっげ
尊敬するわその熱意
1326/04/28(火)04:35:59No.1424531490+
ライブラリの名前はLerning Objective Regal Expression MANuscript COmputatorにしようと思っています
かなりいいセンスだと思います
1426/04/28(火)05:00:28No.1424532239+
loremancoでgithubにアップしよう!codebergでもいい!
1526/04/28(火)05:07:35No.1424532492+
>・検索パターンによってNFA/backtrack/Double Array Aho Corasickエンジンを適宜切り替え
どういう基準で切り替えるの?
1626/04/28(火)05:09:24No.1424532559+
ところでその画像いいね
理想的少女だ
1726/04/28(火)05:22:51No.1424532959+
俺なんてThompson構成法からε除去→NFAをDFA変換→brzozowskiのDFA最小化=同値性の判定程度で「正規表現もう完全に理解したわ」って感じなのに
1826/04/28(火)05:26:24No.1424533062+
>どういう基準で切り替えるの?
パターンが文字そのものの並び、回数が固定の繰り返し(a{3}とか)、それらのみで構成されるオルタネーション(a|b|cとか)の場合実質的に固定文字列の検索なのでAhoCorasickエンジンを使用しますこのとき (a|b)(c|d) とかの場合もあるので全パターンのデカルト積を計算します
固定文字列以外のパターンのうちキャプチャ、後方参照、後読み先読みを使用している場合はbacktrackエンジンを使用します
それ以外はNFAエンジンに投げます
1926/04/28(火)05:40:37No.1424533449+
orz

- GazouBBS + futaba-