Login

  



Subtítulos codificación ISO. Uso de UTF-8. Olvíden el ISO-8859.





Thread creado por HRSCR el 19/07/2020 10:42:37 am. Lecturas: 182. Mensajes: 14. Favoritos: 0





19/07/2020 10:42:37 am 
   5                           
¿Como están todos? Espero que se encuentren bien y se estén cuidando en estos tiempos difíciles que pasa la humanidad.

Quería dejar esta contribución, no para hacer una discusión, ni mucho menos hacer una crítica, al contrario, quiero dejarlo como una gota de saber, sobretodo para aquellos que con tanto trabajo y horas de su tiempo nos regalan y comparten día a día sus subtítulos.

Como subdivx es un sitio de subtítulos ,creo que también ya va siendo hora de ponernos al día con lo que ya quedó en el pasado.

Actualmente casi todos los subtítulos acá esta en western iso (8859-15). Esto posiblemente se deba a que la mayoría de las personas que hacen subtítulos usan Windows en español. Sin embargo el tema de la codificación ISO ha cambiado y el standard es otro desde hace ya bastantes años.
Esto puede estar dando problemas a algunas personas por tanto explico:

Los acuerdos internacionales y la estandarización para la compatibilidad de diferentes idiomas para programación, sistemas operativoss, etcétera, etcétera solicitó a principios de siglo a los usuarios, desarrolladores Unicode UTF-8 si necesitan alguna codificación más allá del conjunto de 7 bits (lo cual sucede con el español). Unicode es el futuro. Las codificaciones regionales de 8 bits como ISO-8859-2 y mutantes como CP1252 en Windows son el pasado .

El tratamiento del símbolo del euro es un buen ejemplo de por qué es mejor evitar codificaciones de 8 bits que no sean ISO-8859-1 estándar. No hay símbolo del euro en la parte de Unicode que corresponde a ISO-8859-1. El punto de código Unicode apropiado para € [esto puede o no mostrarse correctamente como el símbolo del Euro en su navegador o un subtítulo] es decimal 8364 (0x20AC). En Windows CP1252 € tiene el código 128 (0x80) en ISO-8859-15 (también conocido como Latin-9) el código € es 164 (0xA4) en Macintosh Roman es 219 (0xDB).

Estos estándares de codificación de 8 bits incompatibles generan confusión.

La mejor salida es adoptar el estándar Unicode en la codificación UTF-8 común que es universalmente compatible con todos los sistemas operativos modernos, web, subtítulos, etc.

En los programas para trabajar subtítulos se puede elegir guardarlo como UTF-8 Algunos nuevos adeptos son UTF8- BOM.

¿Cuando vamos a tener problemas con subtítulos que no están en UTF-8?
Si su máquina no está en Windows en español y no es moderna va a tener problemas. Pueden tener problemas en Plex, Emby y algunos servidores de medios. A la hora de hacer un remux en mkv tendrá un error si no utilizan utf-8

Explicación técnica (entendible, espero)

UTF
UTF es una familia de esquemas de codificación de varios bytes que pueden representar puntos de código Unicode que pueden ser representativos de hasta 2 ^ 31 [aproximadamente 2 mil millones] caracteres. UTF-8 es un sistema de codificación flexible que utiliza entre 1 y 4 bytes para representar los primeros 2 ^ 21 [aproximadamente 2 millones] puntos de código.

En pocas palabras: cualquier personaje con un punto de código / representación ordinal por debajo de 127, también conocido como de 7 bits seguro, está representado por la misma secuencia de 1 byte que la mayoría de las otras codificaciones de un solo byte. Cualquier carácter con un punto de código superior a 127 está representado por una secuencia de dos o más bytes, con los detalles de la codificación mejor explicados aquí .

ISO-8859
ISO-8859 es una familia de esquemas de codificación de un solo byte utilizados para representar alfabetos que se pueden representar dentro del rango de 127 a 255. Estos diversos alfabetos se definen como ´´partes´´ en el formato ISO-8859- n , el más familiar de estos probablemente sean ISO-8859-1, también conocido como Latin-1. Al igual que con UTF-8, el seguro de 7 bits no se ve afectado independientemente de la familia de codificación utilizada.

El inconveniente de este esquema de codificación es su incapacidad para acomodar idiomas compuestos por más de 128 símbolos, o para mostrar de manera segura más de una familia de símbolos a la vez. Además, las codificaciones ISO-8859 han caído en desgracia con el aumento de UTF. El ´´Grupo de trabajo´´ ISO a cargo de que se disolviera en 2004, dejando el mantenimiento a su subcomité matriz.

Así las cosas, UTF-8 es el estandar desde hace casi dos décadas, el uso de Windows en español ha dejado a muchos usuarios en la era de piedra, aunque Windows ya está cambiando eso por exigencia de la comunidad mundial ya que era el único sistema operativo que no estaba estandarizando nada, aunque si ofrece, al menos en las versiones nuevas de Windows, leer utf-8 sin problemas. Lo cual es lógico por lo arriba explicado.

Saludos a todos y cuídense!
55 5



19/07/2020 11:03:47 am 
   5                           
CiscoNet


Miembro desde: 22/09/2007

Threads abiertos: 51
Mensajes: 1194  
Subtítulos subidos: 0
Threads Favoritos: 2





No entendí, yo solo bajo un archivo de texto con extensión SRT.


19/07/2020 01:27:55 pm 
   3                           
elioF


Miembro desde: 13/03/2015

Threads abiertos: 2
Mensajes: 87  
Subtítulos subidos: 15
Threads Favoritos: 0





En resumen lo que dice el amigo HRSCR es que hay que subir los subtítulos en UTF-8 y no en el Windows CP-1252, porque es el nuevo standard internacional.
UTF-8 permite el uso de caracteres de todos los idiomas (arabe, chino, etc) cosa que no permite el Windows.
Cada carácter tiene un código que lee la computadora, televisor, etc y por ejemplo Windows CP-1252 usa 7bits o sea que solo puede representar 127 caracteres que serían los del ingles y algunos idiomas occidentales.
UTF-8 usa longitud variable lo que le da la posibilidad e representar cualquier carácter.


19/07/2020 04:03:33 pm 
   4                           
Hueney007


Miembro desde: 12/2/2004

Threads abiertos: 2
Mensajes: 64  
Subtítulos subidos: 0
Threads Favoritos: 0





Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.


19/07/2020 04:39:11 pm 
   4                           
mauvalmar


Miembro desde: 17/10/2007

Threads abiertos: 3
Mensajes: 64  
Subtítulos subidos: 2
Threads Favoritos: 0





No coincido, en utf-8 cuando incrustas los subs no reconoce acentos, signos de interrogacion ni la ñ. en tv lg no te los reproduce correctamente, nada de lo cual pasa con el sub en ansi o 1252 occidental.


19/07/2020 04:47:21 pm 
   2                           
yaguamercado


Miembro desde: 31/05/2013

Threads abiertos: 1
Mensajes: 6  
Subtítulos subidos: 0
Threads Favoritos: 0





Hueney007 escribió:
Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.


Yo, la misma cosa. Mi televisor no reconoce los caracteres ´´especiales´´ del UTF-8 y soluciono ese problema pasando a ANSI o UNICODE.


19/07/2020 05:05:50 pm 
   1                           
mauvalmar escribió:
No coincido, en utf-8 cuando incrustas los subs no reconoce acentos, signos de interrogacion ni la ñ. en tv lg no te los reproduce correctamente, nada de lo cual pasa con el sub en ansi o 1252 occidental.
Hueney007 escribió:
Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.


Abrís el archivo y lo salvás como utf-8 y así será compatible con cualquier aparato nuevo que uses (TVs, Roku, Android, etc.) Si su computadora no tiene un windows viejo no debería de tener ningún problema, indifrentemente del idioma en que esté no debería eistir ningún cambio ni signos raros, al contrario te va a dar mejor compatibilidad.


19/07/2020 05:08:07 pm 
   1                           
yaguamercado escribió:
Hueney007 escribió: Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.Yo, la misma cosa. Mi televisor no reconoce los caracteres especiales del UTF-8 y soluciono ese problema pasando a ANSI o UNICODE.


Usas ver las películas desde una llave conectada al TV, ¿o con alguna caja?
Un TV moderno no debería hacer eso, actualizale el firmware. De hecho no conozco ninguno que lo haga.


19/07/2020 05:12:21 pm 
   0                           
Nintenfermo


Miembro desde: 11/07/2019

Threads abiertos: 0
Mensajes: 275  
Subtítulos subidos: 0
Threads Favoritos: 0



Yo siempre los guardo en UTF-8 para ver peliculas en mi PS4, en otras codificaciones algunos caracteres no se muestran correctamente.


19/07/2020 07:25:48 pm 
   0                           
milossi


Miembro desde: 13/07/2016

Threads abiertos: 0
Mensajes: 1  
Subtítulos subidos: 1
Threads Favoritos: 0



Tengo una TV LG y uno de los que si me funciona bien es UTF-8, ANSI no.


19/07/2020 08:01:35 pm 
   1                           
AtilioNalerio


Miembro desde: 23/12/2015

Threads abiertos: 6
Mensajes: 29  
Subtítulos subidos: 79
Threads Favoritos: 0





Hueney007 escribió:
Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.


Por esta razón es que en mis traducciones he optado últimamente por volver al ANSI, había un montón de compañeros que se quejaban de los tildes, las eñes, etcétera.



19/07/2020 08:37:48 pm 
   0                           
juanlamour


Miembro desde: 25/01/2013

Threads abiertos: 5
Mensajes: 1481  
Subtítulos subidos: 215
Threads Favoritos: 0





yaguamercado escribió:
Hueney007 escribió: Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.Yo, la misma cosa. Mi televisor no reconoce los caracteres especiales del UTF-8 y soluciono ese problema pasando a ANSI o UNICODE.


Huh? UTF-8 es Unicode. ANSI es usado para codificar caracteres del alfabeto latin, mientras que UTF-8 es un formato Unicode que codifica fielmente caracteres de diversos alfabetos. En mi Samsung funciona correctamente UTF-8, y todos mis subs están en ese formato mas universal.


19/07/2020 10:01:43 pm 
   1                           
Si usas el UTF-8 acá, no uno, no dos, no tres, he visto montonal de gente que luego luego salta diciéndote que tu subtítulo está lleno de símbolos raros y te lo destruyen con negativos fáciles, para la multitud lo mejor es ANSI, vamos si hasta el uso de winrar o winzip muy modernos les causa problemas de que no pueden descomprimir nada, corrupto y no se que y te sorrajan negativos, como esperas que la bola acepte el UTF-8, ellos sólo lo ven como algo defectuoso


19/07/2020 10:40:14 pm 
   0                           
UTF-8 uso, es muy raro que tenga problemas.


20/07/2020 03:16:57 pm 
   0                           
mauvalmar escribió:
No coincido, en utf-8 cuando incrustas los subs no reconoce acentos, signos de interrogacion ni la ñ. en tv lg no te los reproduce correctamente, nada de lo cual pasa con el sub en ansi o 1252 occidental.


Q raro lo q t pasa, tengo un LG 60 UHD 4k y uso la codificación UTF-8 sin ningún problema y lee los acentos y las ´´ñ´´ ,es mas, uso un SSD externo donde bajo las pelis y lo conecto por USB detrás del TV, como sabrás el LG tiene su propio reproductor de video nativo y he actualizado el firmware de la TV varias veces q me lo pidió...cero problemas!!!


20/07/2020 08:51:00 pm 
   1                           
juanlamour


Miembro desde: 25/01/2013

Threads abiertos: 5
Mensajes: 1481  
Subtítulos subidos: 215
Threads Favoritos: 0





Kordaz escribió:
Si usas el UTF-8 acá, no uno, no dos, no tres, he visto montonal de gente que luego luego salta diciéndote que tu subtítulo está lleno de símbolos raros y te lo destruyen con negativos fáciles, para la multitud lo mejor es ANSI, vamos si hasta el uso de winrar o winzip muy modernos les causa problemas de que no pueden descomprimir nada, corrupto y no se que y te sorrajan negativos, como esperas que la bola acepte el UTF-8, ellos sólo lo ven como algo defectuoso


Nunca recibí un comentario negativo por usar UTF-8 en mis subs. Sí he recibido comentarios idiotas de usuarios que no podían abrir los archivos .rar. Entonces los subo en .zip y listo.


21/07/2020 12:57:43 am 
  -1                           
fersampa


Miembro desde: 23/05/2013

Threads abiertos: 4
Mensajes: 541  
Subtítulos subidos: 1
Threads Favoritos: 0





HRSCR escribió:
yaguamercado escribió: Hueney007 escribió: Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.Yo, la misma cosa. Mi televisor no reconoce los caracteres especiales del UTF-8 y soluciono ese problema pasando a ANSI o UNICODE.Usas ver las películas desde una llave conectada al TV, ¿o con alguna caja?Un TV moderno no debería hacer eso, actualizale el firmware. De hecho no conozco ninguno que lo haga.


El UTF es un reverenda mierda, no se entiende un carajo el subtítulo cuando le dejás esa decodificación. No importa que me lo quieras vender como el postre ideal es una Cagada y por eso siempre lo paso a ANSI. Mirá si por ver el signo del Euro bien me voy a perder de los acentos, las ñ, etc, eso solo lo puede resistir alguien no escribe con faltas de ortografía, no les da bolaa la gramática pero si a los signos monetarios del mundo. Querés usar la mmierda de UTF usala sos libre de hacerlo, pero no me vengas con el verso de la modernida ni que carajo, porque no andaa, para el castellano y el español no funcaaaa. Y lamentablemente, griego, albanés, Francés, turco y alemán no leo.


21/07/2020 01:02:10 am 
   1                           
fersampa


Miembro desde: 23/05/2013

Threads abiertos: 4
Mensajes: 541  
Subtítulos subidos: 1
Threads Favoritos: 0





juanlamour escribió:
yaguamercado escribió: Hueney007 escribió: Yo siempre tengo problemas con el UTF-8 , acentos, ñ, ¿, y otros signos no aparecen correctamente, lo suelo cambiar a ANSI y ahí sí me aparece todo bien.Yo, la misma cosa. Mi televisor no reconoce los caracteres especiales del UTF-8 y soluciono ese problema pasando a ANSI o UNICODE.Huh? UTF-8 es Unicode. ANSI es usado para codificar caracteres del alfabeto latin, mientras que UTF-8 es un formato Unicode que codifica fielmente caracteres de diversos alfabetos. En mi Samsung funciona correctamente UTF-8, y todos mis subs están en ese formato mas universal.


Juan cuando bajo un sub tuyo en UTF Puteo para mis adentros, pero como respeto tu laburo no digo nada lo paso a Ansi y listo, después de todo vos sos el creador del sub lo podés subir como quieras. Eso lo respeto porque soy un analfabeto que no sabe idiomas y gracias atu laburo puedo ver ciertas pelis. Pero de ahí a decir que esl UTF-8 es mejor que el ANSI en mi caso nop, DEsapacereen los acentos, las ñ estc. Abz


21/07/2020 02:01:31 am 
   0                           
Hasbro2


Miembro desde: 11/02/2015

Threads abiertos: 264
Mensajes: 1326  
Subtítulos subidos: 0
Threads Favoritos: 1





elioF escribió:
En resumen lo que dice el amigo HRSCR es que hay que subir los subtítulos en UTF-8 y no en el Windows CP-1252, porque es el nuevo standard internacional.UTF-8 permite el uso de caracteres de todos los idiomas arabe, chino, etc cosa que no permite el Windows.Cada carácter tiene un código que lee la computadora, televisor, etc y por ejemplo Windows CP-1252 usa 7bits o sea que solo puede representar 127 caracteres que serían los del ingles y algunos idiomas occidentales.UTF-8 usa longitud variable lo que le da la posibilidad e representar cualquier carácter.


En mis dos tvs si lo dejo en UTF veo simbolos raros y tenes que andar adivinando la palabra, lo paso a ANSI y tema solucionado


02/08/2020 07:31:41 pm 
   0                           
Altober


Miembro desde: 03/10/2004

Threads abiertos: 0
Mensajes: 12  
Subtítulos subidos: 16
Threads Favoritos: 0



Aporto mi humilde opinión.
Veo que la mayoría de los subtítulos descargados de acá están codificados en ANSI 1252 o ISO-8859, perfecto.

1) Si esos subtítulos los abro con el viejo (y discontinuado) Subtitle Workshop 6.0b, veo que las ´´ñ´´ y los signos de interrogación, acentos, etc se visualizan PERFECTOS.

2) Si esos subtítulos los abro con el nuevo y actualizado SubtitleEdit-3.5.16 (el que utilizo habitualmente) se ve perfecto también.

Ahora bien, yo soy coleccionista de películas (no vendo, sino lo diría), pero mis películas persiguen el único fin del coleccionismo.

Entonces cada vez que bajo un MKV, lo que hago es ´´limpiarlo´´. No me gusta guardar una película donde en mitad de la película aparezca ´´descargada de www.tupelicula.com´´, entonces lo que hago es usar el MKVToolnix, y ´´emprolijar´´ todo, en esa ´´emprolijada´´, obviamente la parte más importante es el subtítulo (es donde suele haber mucha publicidad), bien... Ahí al extraer el súbtitulo del MKV descargado Uso el MKVcleaver), ABSOLUTAMENTE SIEMPRE el subtítulo extraído sale en UTF-8, y yo antes (cuando usaba el Subtitle Workshop) los veía con caracteres ´´chinos´´ (acentos mal, signos interrogación, etc).

Entonces los limpiaba con el Ultraedit (editor de texto). Y los grababa en ANSI, y me quedaba contento porque en el Subtitle Workshop AHORA SE VEÍAN BIEN.
Y yo suponía que si se veían bien el el Subtitle Workshop, también se verían bien en todo los TV.

Pero me di cuenta que estaba haciendo eso ´´al pepe´´ (de gusto). ¿Por qué? Porque al MKVToolnix MUY POCO LE IMPORTA el formato en el cual está codificado el SRT, él siempre al multiplexar el archivo TRANSFORMA EL ARCHIVO SRT A FORMATO UTF-8.

Y ahí se terminaron las discusiones. Porque no le encuentro sentido a estar cambiando al formato a ANSI, ISO, etc si ese formato va a ser PERDIDO completamente, para pasar a UTF-8.

Obviamente no veo mal los subtítulos en ningún TV de mi casa (un viejo Samsung Led de 32´´ y un moderno Smart LG de 42´´), y por supuesto, en ningún reproductor de Windows 10 (pero eso siempre se ve bien).

Supongo que quienes ven mal los UTF-8 en sus TVs, algo mal están haciendo. O están recodificando el archivo srt (un archivo de texto en definitiva) en un formato incorrecto.
He descargado subtítulos con codificaciones de Europa, que se veían mal (hace mucho tiempo, cuando MKVToolnix respetaba el formato original del SRT, cosa que ahora como ya expliqué, no hace más).

Además, creo que algo nos están diciendo los programas EN SUS NUEVAS VERSIONES.
Por ejemplo. Ultraedit (para mí el mejor editor de texto que existe) (en realidad tiene soporte para múltiples formatos) viene con UTF-8 como archivo de salida por defecto, para grabar cualquier archivo de texto.

Y el SubtitleEdit cuya última (recién salida) versión es la 3.5.16, viene exactamente con el archivo marcado por defecto de salida comoUTF-8 with BOM

Justamente, respecto a este último formato, quisiera preguntarle al usuario HRSCR creador de este post, si sabe cual es la diferencia (y cual conviene usar) de los dos formatos, es decir UTF-8 with BOM o UTF-8 without BOM.

Edición 1:
Es muy importante el tema de la codificación para quienes no se quieren meter en el tema de la multiplexación, y sólamente dejan el archivo srt junto a la película, la reacción de los reproductores (TVs, PS, etc) es muy diferente.
Al multiplexar (el método correcto), repito una vez más, por más ANSI o ISO que pongamos, el MKVToolnix lo convierte a UTF-8, hice varias veces la prueba con subtítulos en ANSI o ISO bajados de acá (o pasados a ANSI por mí mismo), y después cuando le paso el MediaInfo, ya se informa con subtítulo codificado en UTF-8, y por las dudas los extraje, y miré con editores, etc, Y en efecto, ya no eran más ANSI, ya eran UTF-8.
Sin embargo compatibilidad total con mi viejísimo TV Samsung (de los primeros en soportar USB con MKV), y que al no ser SMART, jamás tuvo actualización alguna de Firmware, y ni hablar de mi LG, que es SMART, y se actualiza el Firmware bastante seguido.

Edición 2:
En la ayuda (Online) del SubtitleEdit (para mí hoy por lejos el mejor programa para editar subtítulos respecto a este tema dice lo siguiente) (Lamentablemente está en inglés, pero trataré de traducirlo lo mejor que pueda)

´´´´La codificación de archivos se detecta automáticamente en la mayoría de los casos. ANSI es el formato más común encontrado antiguamente, pero requiere que su sistema tenga una configuración específica. UTF-8 se recomienda para nuevos subtítulos, ya que pueden manejar letras que no están en inglés mejor que ANSI (los subtítulos UTF-8 funcionarán en todas las computadoras sin importar la configuración que tenga una computadora), y puede mostrar otros símbolos como nodos de música. El único inconveniente de usar UTF-8 es que algunos programas más antiguos no son compatibles con UTF-8.´´´´

Claramente, el mejor (y con actualizaciones constantes) programa de la actualidad recomienda usar UTF-8.
En cambio el Subtitlte Workshop, que tiene su última versión en el año 2013 no maneja correctamente este tipo de codificación de caracteres, mostrando los clásicos ´´símbolos chinos´´ en lugar de los acentos, signos de pregunta, etc.

En la recomendación el SubtitleEdit no habla de hardware de reproducción, es verdad.
Yo (repito una vez más) tengo un TV muy viejo (pero se la banca todavía), y uno muy nuevo.
Con la codificación por defecto que el MKVToolnix le da a cada SRT (sin importar que sea ANSI o UTF-8), que es justamente UTF-8, puedo ver las películas con los subtítulos correctamente.

UTF-8 significa Unicode Transformation Format, es el presente y el futuro en la codificación de caracteres.
Apostar a ANSI (que además no sé como lograrían que quede en ANSI, porque en multiplexar con el MKVToolnix se convierte automáticamente a UTF-8), puede que les traiga compatibilidad momentánea con algún hardware, o algún programa viejo, pero si (como yo) son coleccionistas, a futuro les traerá dolores de cabeza.

Si todos los programas actuales recomiendan y traen como formato por defecto un tipo de codificación, yo me preguntaría ¿por qué será, no?

En definitiva, apoyo al creador del post en su teoría, mi experiencia personal me lleva a compartir lo que escribió y doy mis argumentos y fundamentos.
No soy el dueño de la verdad, cada cual hace con los subtítulos lo que quiera, los UTF-8 se pueden convertir a ANSI, y viceversa.

Muchas Gracias! Qué estén todos bien!




olviden

1