miércoles, 7 de mayo de 2008

Google ahora soporta la versión Unicode 5.1

El formato de caracteres Unicode es un estándar que ofrece un juego de caracteres universal que es capaz de transmitir textos escritos en cualquier alfabeto del planeta, cosa que no sucede con formatos como ASCII y Latin-1.

Lo que hace Unicode es asignar a cada caracter de cada alfabeto un único número, independientemente de la plataforma en la que sea escrito o leído dicho caracter, este enlace contiene una prueba de página web.

La primera especificación de Unicode (1.0) data de 1991, han ido surgiendo posteriormente nuevas versiones para cubrir más alfabetos. Días atraz, el Consorcio Unicode presentó la versión 5.1, soportando 1.624 nuevos caracteres, entre ellos la mayúscula de la famosa 'Eszett' del alfabeto alemán, a la cual se le ha asignado el código 'U+1E9E'.

Google demostró un gran interes en que los documentos de texto que se publican en la red estén codificados siguiendo un estándar único, como Unicode. Por ello, en este post oficial anuncia que además de rastrear páginas web generadas con Unicode, el buscador también lo utiliza al realizar búsquedas. Además, este gráfico muestra, a partir de las páginas encontradas por Google, la evolución de los diferentes juegos de caracteres, ASCII y Latin-1 pierden terreno a favor del estándar Unicode, en concreto de su versión UTF-8.

No hay comentarios.: