25/11/2013

A saga da codificação de carateres com acentuação

aqui tinha apresentado um artigo sobre problemas que tinha tido com codificação de carateres. Mas a saga continua e sempre que tenho de fazer alguma aplicação em PHP que envolva strings com carateres dito especiais, ou com acentuação, e no Português há muitos, tenho sempre trabalho extra para manobrar as codificações.

No meu caso prático queria gerar um ficheiro com uma string para depois ser utilizado para criação automatica de contas utilizadores na Active Directory (AD). Claro que nos nomes com acentuação tive problemas.

Neste artigo, quero apresentar as dificulades que tive e como as ultrapassei. Acredito que isto para um programador experiente isto seja canja, mas como esta não é a minha área (ou seja, sou maçarico :P) tenho sempre alguma dificuldade.

O que eu pretendia era ter um ficheiro com uma string a gerar pelo PHP mais ou menos do seguinte género:

jose.silva;José Maria da Silva;grupo_AD;jose.silva@mail.pt;grupo;etc;etc

A dificuldade que tive foi que ao usar o ficheiro com esta string, para criação da conta o utilizador, iria ficar com carateres estranhos na letra com acentuação (é) no serviço de directório (AD).

Resolvi da seguinte forma:

1. Obrigar a string a ficar no formato que a AD entenda
html_entity_decode($string,0,'ISO-8859-15')

2. Gravar o ficheiro .txt com a string no formato ANSI.

O formato ANSI, também conhecido por Windows-1252 é essencialmente uma extensão ao ASCII.

Contudo o termo ANSI, pode não ser muito correto, pois atualmente existe uma norma que define estas codificações. A norma que corresponde ao ANSI é o ISO/IEC 8859. Existe ainda a ISO/IEC 8859-15 que utilizei no ponto 1, que não é mais que uma extensão da norma base para codificar novos carateres como é o caso do € (euro).



Share:

3 comments:

Ricardo Gomes disse...

Sem experimentar não tenho a certeza, mas acho que se fores pelo UTF8 também de safas e tens maior garantia que não tens problemas com outros caracteres que não estejas á espera, como o umlaut (aqueles dois pontos por cima das letras).

Ricardo Gomes disse...

Sem experimentar não tenho a certeza, mas acho que se fores pelo UTF8 também de safas e tens maior garantia que não tens problemas com outros caracteres que não estejas á espera, como o umlaut (aqueles dois pontos por cima das letras).

Paulo Gomes disse...

Oi Ricardo.
Obrigado pelo teu comentário.

Eu tinha experimentado primeiro tudo em UTF8, e para espanto meu não funcionou! Os carateres na AD ficaram esquisitos!
Só funcionou bem, quando coloquei tudo (carateres e formato do ficheiro) em ISO-8859.

1ab

Vamos beber um café?

Your language

Categories

Actualizações (3) Aplicativos (8) Apple (1) AZ-104 (1) Azure (1) Bash/Shell (32) Berbicachos (5) CentOS (9) CM (17) Containers (1) Curiosidades (1) Debian (21) Dicas (2) Docker (2) encriptação (1) FreeBSD (1) Freenas (1) Gnome (5) Informação (20) Java (1) Jogos (1) Kde (5) Kubernetes (4) Kubuntu (25) LibreOffice (1) Linu (1) Linux (8) LinuxMint (7) LoadBalancer (1) MAC OS X (1) Monitorização (1) Multimédia (5) MySQL (7) openSuse (7) Opinião (3) Oracle Linux (1) Perl (1) PHP (4) Plugin (1) ppc (1) Rapidinhas (21) Redhat (2) Scripts (1) Segurança (2) Tutoriais (8) Ubuntu (28) Virtualizacao (6) Wine (1)

Popular Posts

Blog Archive

Aventux. Com tecnologia do Blogger.

Seguidores