مجموعه کاراکتر در HTML
برای نمایش صحیح کلمات باید از مجموعه کاراکتری مناسب استفاده کنیم.
به طور مثال از مجموعه کاراکتری که از حروف فارسی پشتیبانی کند.
مجموعه کاراکتر UTF-8 به طور کامل از حروف و اعداد فارسی و کاراکترهای ویژه پشتیبانی می کند.
نکته: نسخه HTML4 به صورت پیش فرض از ISO-8859-1 استفاده می کند.
نکته: نسخه HTML5 به صورت پیش فرض از UTF-8 استفاده می کند.
به مجموعه کاراکتری (Character Sets) نیز رمزگذاری (Encoding) گفته می شود.
Character Sets را به صورت خلاصه charset نیز نوشته می شود.
برای تغییر مجموعه کاراکتری یا رمزگذاری سند HTML می توان از متا تگ زیر در تگ head استفاده کرد.
<meta charset="UTF-8">
نکته: بهتر است بیشتر از رمزگذاری UTF-8 استفاده کنیم. چرا که بیشترین سازگاری را با مرورگرها دارد و تقریبا از تمام کاراکترهای موجود در سطح وب پشتیبانی می کند.
مجموعه کاراکتر ASCII
ASCII، اولین استاندارد رمزگذاری در HTML است که 128 کاراکتر را تعریف می کند:
- حروف انگلیسی (A-Z)
- اعداد (0-9)
- بعضی کاراکترهای خاص مانند ! $ + – () @ <>
نکته: مشکل اصلی در رمزگذاری ASCII دامنه محدود کاراکترها بود که شامل 128 کاراکتر است.
مجموعه کاراکتر ANSI
ANSI، نسخه توسعه یافته مجموعه کاراکتر ASCII است. ANSI با عنوان 1252-Windows نیز شناخته می شود و از 256 کاراکتر پشتیبانی می کند:
- 127 کاراکتر اول یکسان با ASCII
- از 128 تا 159 کاراکترهای ویژه
- از 160 تا 255 کاراکتر یکسان با UTF-8
<meta charset="Windows-1252">
مجموعه کاراکتر ISO-8859-1
ISO-8859-1، مجموعه کاراکتر پیش فرض برای HTML4 است. این مجموعه کاراکتر از 256 کاراکتر پشتیبانی می کند:
- 127 کاراکتر اول یکسان با ASCII
- از کاراکترهای 128 تا 159 استفاده نمی کند.
- از 160 تا 255 کاراکتر یکسان با ANSI و UTF-8
<meta charset="ISO-8859-1">
مجموعه کاراکتر 8-UTF
UTF-8، مجموعه کاراکتر پیش فرض برای HTML5 است. این مجموعه کاراکتر، تقریبا تمام کاراکترها و نمادها را پوشش می دهد.
- از 0 تا 127 کاراکتر یکسان با ASCII
- از کاراکترهای 128 تا 159 استفاده نمی کند.
- از 160 تا 255 کاراکتر یکسان با ANSI و 8859-1
- از 256 تا 10000 کاراکتر ادامه می یابد.
<meta charset="UTF-8">
نکته: HTML4 از 8-UTF نیز پشتیبانی می کند. 8-UTF رمزگذاری کاراکتر پیش فرض برای HTML5 است.
خلاصه درس
در این درس با ویژگی کاراکتر در HTML:
- مجموعه کاراکتر ASCII
- مجموعه کاراکتر ANSI
- مجموعه کاراکتر ISO-8859-1
- مجموعه کاراکتر 8-UTF
آشنا شدیم.