Fandango Standard Library#

Fandango provides a set of predefined grammar symbols. Each symbol is defined as

  • <_SYMBOL> (with the actual “official” definition), and

  • <SYMBOL> (defined as <_SYMBOL> by default; can be overridden in individual specifications)

If you’d like to narrow the definition of, say, punctuation characters, you can redefine <punctuation> to your liking:

<punctuation> ::= '!' | '?' | ',' | '.' | ';' | ':'

The original definition of <_punctuation>, however, must not be changed, as other definitions may depend on it.

Warning

Symbols starting with an underscore must not be redefined.

Characters#

A <char> represents any Unicode character, including newline.

<_char> ::= r'(.|\n)'
<char> ::= <_char>

Printable Characters#

These symbols mimic the string constants from the Python string module. Use <digit>, <ascii_letter>, <whitespace>, and more to your liking.

<_printable> ::= r'[0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!\x22#$%&\x27()*+,-./:;<=>?@[\]^_`{|}~ \t\n\r\x0b\x0c]'
<printable> ::= <_printable>

<_whitespace> ::= r'[ \t\n\r\x0b\x0c]'
<whitespace> ::= <_whitespace>

<_digit> ::= r'[0-9]'
<digit> ::= <_digit>

<_hexdigit> ::= r'[0-9a-fA-F]'
<hexdigit> ::= <_hexdigit>

<_octdigit> ::= r'[0-7]'
<octdigit> ::= <_octdigit>

<_ascii_letter> ::= r'[a-zA-Z]'
<ascii_letter> ::= <_ascii_letter>

<_ascii_lowercase_letter> ::= r'[a-z]'
<ascii_lowercase_letter> ::= <_ascii_lowercase_letter>

<_ascii_uppercase_letter> ::= r'[A-Z]'
<ascii_uppercase_letter> ::= <_ascii_uppercase_letter>

<_punctuation> ::= r'[!\x22#$%&\x27()*+,-./:;<=>?@[\]^_`{|}~]'
<punctuation> ::= <_punctuation>

<_alphanum> ::= r'[a-zA-Z0-9]'
<alphanum> ::= <_alphanum>

<_alphanum> ::= r'[a-zA-Z0-9_]'
<alphanum> ::= <_alphanum>

Unicode Characters#

A <any_letter> is any Unicode alphanumeric character, as well as the underscore (_).

An <any_digit> is any character in the Unicode character category [Nd]. This includes [0-9], and also many other digit characters.

An <any_whitespace> is any Unicode whitespace character. This includes [ \t\n\r\f\v], and also many other characters, for example the non-breaking spaces mandated by typography rules in many languages.

The symbols <any_non_letter>, <any_non_digit>, and <any_non_whitespace> match any character that is not in <any_letter>, <any_digit>, and <any_whitespace>, respectively.

<_any_letter> ::= r'\w'
<any_letter> ::= <_any_letter>

<_any_digit> ::= r'\d'
<any_digit> ::= <_any_digit>

<_any_whitespace> ::= r'\s'
<any_whitespace> ::= <_any_whitespace>

<_any_non_letter> ::= r'\W'
<any_non_letter> ::= <_any_non_letter>

<_any_non_digit> ::= r'\D'
<any_non_digit> ::= <_any_non_digit>

<_any_non_whitespace> ::= r'\S'
<any_non_whitespace> ::= <_any_non_whitespace>

ASCII Characters#

<ascii_char> expands into all 7-bit characters in the ASCII range 0x00-0x7F, printable and non-printable.

<_ascii_char> ::= rb'[\x00-\x7f]'
<ascii_char> ::= <_ascii_char>

ASCII Control Characters#

<ascii_control> expands into any of the ASCII control characters 0x00-0x1F and 0x7F. We also provide ASCII codes such as <ESC>, <LF>, or <NUL>.

<_NUL> ::= b'\x00'
<NUL> ::= <_NUL>

<_SOH> ::= b'\x01'
<SOH> ::= <_SOH>

<_STX> ::= b'\x02'
<STX> ::= <_STX>

<_ETX> ::= b'\x03'
<ETX> ::= <_ETX>

<_EOT> ::= b'\x04'
<EOT> ::= <_EOT>

<_ENQ> ::= b'\x05'
<ENQ> ::= <_ENQ>

<_ACK> ::= b'\x06'
<ACK> ::= <_ACK>

<_BEL> ::= b'\x07'
<BEL> ::= <_BEL>

<_BS> ::= b'\x08'
<BS> ::= <_BS>

<_HT> ::= b'\x09'
<HT> ::= <_HT>

<_LF> ::= b'\x0a'
<LF> ::= <_LF>

<_VT> ::= b'\x0b'
<VT> ::= <_VT>

<_FF> ::= b'\x0c'
<FF> ::= <_FF>

<_CR> ::= b'\x0d'
<CR> ::= <_CR>

<_SO> ::= b'\x0e'
<SO> ::= <_SO>

<_SI> ::= b'\x0f'
<SI> ::= <_SI>

<_DLE> ::= b'\x10'
<DLE> ::= <_DLE>

<_DC1> ::= b'\x11'
<DC1> ::= <_DC1>

<_DC2> ::= b'\x12'
<DC2> ::= <_DC2>

<_DC3> ::= b'\x13'
<DC3> ::= <_DC3>

<_DC4> ::= b'\x14'
<DC4> ::= <_DC4>

<_NAK> ::= b'\x15'
<NAK> ::= <_NAK>

<_SYN> ::= b'\x16'
<SYN> ::= <_SYN>

<_ETB> ::= b'\x17'
<ETB> ::= <_ETB>

<_CAN> ::= b'\x18'
<CAN> ::= <_CAN>

<_EM> ::= b'\x19'
<EM> ::= <_EM>

<_SUB> ::= b'\x1a'
<SUB> ::= <_SUB>

<_ESC> ::= b'\x1b'
<ESC> ::= <_ESC>

<_FS> ::= b'\x1c'
<FS> ::= <_FS>

<_GS> ::= b'\x1d'
<GS> ::= <_GS>

<_RS> ::= b'\x1e'
<RS> ::= <_RS>

<_US> ::= b'\x1f'
<US> ::= <_US>

<_SP> ::= b'\x20'
<SP> ::= <_SP>

<_DEL> ::= b'\x7f'
<DEL> ::= <_DEL>

<_ascii_control> ::= <NUL> | <SOH> | <STX> | <ETX> | <EOT> | <ENQ> | <ACK> | <BEL> | <BS> | <HT> | <LF> | <VT> | <FF> | <CR> | <SO> | <SI> | <DLE> | <DC1> | <DC2> | <DC3> | <DC4> | <NAK> | <SYN> | <ETB> | <CAN> | <EM> | <SUB> | <ESC> | <FS> | <GS> | <RS> | <US> | <SP> | <DEL>
<ascii_control> ::= <_ascii_control>

Bits#

A <bit> represents a bit of 0 or 1. Use <bit>{N} to specify a sequence of N bits.

<_bit> ::= 0 | 1
<bit> ::= <_bit>

Bytes#

A <byte> is any byte 0x00-0xFF. During parsing and production, it will always be interpreted as a single byte.

<_byte> ::= rb'[\x00-\xff]'
<byte> ::= <_byte>

UTF-8 characters#

A <utf8_char> is a UTF-8 encoding of a character, occupying one (<utf8_char1>) to four (<utf8_char4) bytes.

<_utf8_char1> ::= rb'[\x00-\x7f]'
<utf8_char1> ::= <_utf8_char1>

<_utf8_continuation_byte> ::= rb'[\x80-\xbf]'
<utf8_continuation_byte> ::= <_utf8_continuation_byte>

<_utf8_char2> ::= rb'[\xc2-\xdf]' <utf8_continuation_byte>
<utf8_char2> ::= <_utf8_char2>

<_utf8_char3> ::= rb'[\xe0-\xef]' <utf8_continuation_byte>{2}
<utf8_char3> ::= <_utf8_char3>

<_utf8_char4> ::= rb'[\xf0-\xf5]' <utf8_continuation_byte>{3}
<utf8_char4> ::= <_utf8_char4>

<_utf8_char> ::= <utf8_char1> | <utf8_char2> | <utf8_char3> | <utf8_char4>
<utf8_char> ::= <_utf8_char>

Binary Numbers#

For binary representations of numbers, use symbols such as <int8> (8 bits) or <int32> (32 bits). Note that these symbols only specify the length; they do not cover signs, endianness, or byte ordering.

<_int8> ::= <byte>
<int8> ::= <_int8>

<_int16> ::= <byte><byte>
<int16> ::= <_int16>

<_int32> ::= <byte>{4}
<int32> ::= <_int32>

<_int64> ::= <byte>{8}
<int64> ::= <_int64>

<_float32> ::= <byte>{4}
<float32> ::= <_float32>

<_float64> ::= <byte>{8}
<float64> ::= <_float64>

Fandango Dancer#

The <fandango-dancer> symbol is used to test UTF-8 compatibility.

<_fandango_dancer> ::= '💃'
<fandango_dancer> ::= <_fandango_dancer>