規則表 — 規則表包含一組規則,將地址輸入序列符記對應到標準化的輸出序列。一個規則定義為一組輸入符記,後接 -1 (終止符),再接一組輸出符記,後接 -1,再接一個數字表示規則種類,最後是規則的排名。
一個規則表至少必須包含以下欄位,但您也可以根據自己的需求新增更多欄位。
id
表格的主鍵
規則
表示規則的文字欄位。詳情請參閱 PAGC 地址標準化器規則記錄。
一個規則包含一組代表輸入符記的非負整數,以 -1 終止,後接相同數量的代表郵政屬性的非負整數,以 -1 終止,再接一個代表規則類型的整數,最後是一個代表規則排名的整數。規則排名從 0 (最低) 到 17 (最高)。
例如,規則 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
將輸出符記序列 類型 數字 類型 方向 修飾詞 對應到輸出序列 街道 街道 街道類型 街道方向 修飾詞。此規則為 ARC_C 規則,排名為 6。
對應輸出符記的數字列於 stdaddr。
每個規則都以一組輸入符記開始,後接終止符 -1
。從 PAGC 輸入符記 中摘錄的有效輸入符記如下:
基於形式的輸入符記
AMPERS
(13)。 連字號 (&) 經常被用來縮寫單字 "and"。
DASH
(9)。 一個標點符號。
DOUBLE
(21)。 一個由兩個字母組成的序列。通常用作識別符。
FRACT
(25)。 分數有時用於門牌號碼或單位號碼中。
MIXED
(23)。 一個包含字母和數字的字母數字字串。用於識別符。
NUMBER
(0)。 一個數字字串。
ORD
(15)。 諸如 First 或 1st 之類的表示形式。經常用於街道名稱中。
ORD
(18)。 一個單一字母。
WORD
(1)。 一個單字是由任意長度的字母組成的字串。單一字母既可以是 SINGLE 也可以是 WORD。
基於功能的輸入符記
BOXH
(14)。 用於表示郵政信箱的單字。例如 Box 或 PO Box。
BUILDH
(19)。 用於表示建築物或建築群的單字,通常作為前綴。例如: Tower 在 Tower 7A 中。
BUILDT
(24)。 用於表示建築物或建築群的單字和縮寫,通常作為後綴。例如:Shopping Centre。
DIRECT
(22)。 用於表示方向的單字,例如 North。
MILE
(20)。 用於表示里程碑地址的單字。
ROAD
(6)。 用於表示高速公路和道路的單字和縮寫。例如:Interstate 在 Interstate 5 中。
RR
(8)。 用於表示鄉村路線的單字和縮寫。 RR。
TYPE
(2)。 用於表示街道類型的單字和縮寫。例如: ST 或 AVE。
UNITH
(16)。 用於表示內部子地址的單字和縮寫。例如:APT 或 UNIT。
郵政類型輸入符記
QUINT
(28)。 一個 5 位數字。識別郵遞區號。
QUAD
(29)。 一個 4 位數字。識別 ZIP4。
PCH
(27)。 一個由字母-數字-字母組成的 3 個字元的序列。識別 FSA,加拿大郵遞區號的前 3 個字元。
PCT
(26)。 一個由數字-字母-數字組成的 3 個字元的序列。識別 LDU,加拿大郵遞區號的最後 3 個字元。
停用詞
停用詞與單字組合。在規則中,多個單字和停用詞的字串將以單一單字符記表示。
STOPWORD
(7)。 一個詞彙意義低的單字,可以在剖析時省略。例如: THE。
在第一個 -1 (終止符) 之後,接著是輸出符記及其順序,後接終止符 -1
。對應輸出符記的數字列於 stdaddr。允許的內容取決於規則種類。每個規則類型有效的輸出符記列於 名為「規則類型和排名」的章節。
規則的最後一部分是規則類型,由以下其中一種表示,後接規則排名。規則排名從 0 (最低) 到 17 (最高)。
MACRO_C
(符記數字 = "0")。用於剖析 MACRO 子句(如 地點 州 郵遞區號)的規則類別。
MACRO_C
輸出符記(摘錄自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
CITY
(符記數字 "10")。範例 "Albany"
STATE
(符記數字 "11")。範例 "NY"
NATION
(符記數字 "12")。此屬性在大多數參考檔案中未使用。範例 "USA"
POSTAL
(符記數字 "13")。(SADS 元素 "郵遞區號"、"PLUS 4")。此屬性用於美國郵遞區號和加拿大郵遞區號。
MICRO_C
(符記數字 = "1")。用於剖析完整 MICRO 子句(如房屋、街道、街道方向、前綴方向、前綴類型、後綴類型、修飾詞)的規則類別(即 ARC_C 加 CIVIC_C)。這些規則不於建置階段使用。
MICRO_C
輸出符記(摘錄自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
HOUSE
是文字 (符記數字 1
):這是街道上的門牌號碼。範例:75 在 75 State Street
中。
predir
是文字 (符記數字 2
):街道名稱前置方向,例如 North、South、East、West 等。
qual
是文字 (符記數字 3
):街道名稱前置修飾詞。範例:OLD 在 3715 OLD HIGHWAY 99
中。
pretype
是文字 (符記數字 4
):街道前綴類型。
street
是文字 (符記數字 5
):街道名稱。
suftype
是文字 (符記數字 6
):街道後綴類型,例如 St、Ave、Cir。街道名稱後的街道類型。範例:STREET 在 75 State Street
中。
sufdir
是文字 (符記數字 7
):街道後置方向,一個跟在街道名稱後面的方向修飾詞。範例:WEST 在 3715 TENTH AVENUE WEST
中。
ARC_C
(符記數字 = "2")。用於剖析 MICRO 子句的規則類別,但不包含 HOUSE 屬性。因此,使用與 MICRO_C 相同的輸出符記集,但不包含 HOUSE 符記。
CIVIC_C
(符記數字 = "3")。用於剖析 HOUSE 屬性的規則類別。
EXTRA_C
(符記數字 = "4")。用於剖析 EXTRA 屬性的規則類別,即排除在地理編碼之外的屬性。這些規則不於建置階段使用。
EXTRA_C
輸出符記(摘錄自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
BLDNG
(符記數字 0
):未剖析的建築物識別符和類型。
BOXH
(符記數字 14
):BOX 3B
中的 BOX
BOXT
(符記數字 15
):BOX 3B
中的 3B
RR
(符記數字 8
):RR 7
中的 RR
UNITH
(符記數字 16
):APT 3B
中的 APT
UNITT
(符記數字 17
):APT 3B
中的 3B
UNKNWN
(符記數字 9
):其他未分類的輸出。