문자 집합간에 텍스트 파일을 변환하는 가장 빠르고 쉬운 도구 또는 방법은 무엇입니까?
특히 UTF-8에서 ISO-8859-15로 또는 그 반대로 변환해야합니다.
좋아하는 스크립팅 언어의 한 줄짜리 도구, 명령 줄 도구 또는 OS, 웹 사이트 등의 기타 유틸리티.
Linux/UNIX/OS X/cygwin에서 :
Gnu iconvTroels Arvin 에서 제안한 를 필터 로 사용하는 것이 가장 좋습니다. 보편적으로 사용 가능한 것 같습니다. 예:
$ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt
Ben 에서 지적했듯이 iconv를 사용하는 온라인 변환기 가 있습니다.
Gnu recode ( manual ) Cheekysoft 에서 제안한 것은 하나 또는 여러 개의 파일을 그 자리에서 . 예:
$ recode UTF8..ISO-8859-15 in.txt
이것은 짧은 별칭을 사용합니다.
$ recode utf8..l9 in.txt
Recode는 surfaces 를 지원하여 다른 줄 끝 유형과 인코딩 간을 변환하는 데 사용할 수 있습니다.
줄 바꿈을 LF (Unix)에서 CR-LF (DOS)로 변환하십시오.
$ recode ../CR-LF in.txt
Base64 인코딩 파일 :
$ recode ../Base64 in.txt
그것들을 결합 할 수도 있습니다.
Unix 줄 끝이있는 Base64 인코딩 UTF8 파일을 Dos 줄 끝이있는 Base64 인코딩 라틴 1 파일로 변환하십시오.
$ recode utf8/Base64..l1/CR-LF/Base64 file.txt
Powershell ( Jay Bazuzi ) 인 Windows의 경우 :
PS C:\> gc -en utf8 in.txt | Out-File -en ascii out.txt
(ISO-8859-15는 지원하지 않습니다. 지원되는 문자 세트는 유니 코드, utf7, utf8, utf32, ascii, bigendianunicode, default 및 oem입니다.)
ISO-8859-1 지원을 의미합니까? "문자열"을 사용하면 예를 들어 그 반대로
gc -en string in.txt | Out-File -en utf8 out.txt
참고 : 가능한 열거 값은 "알 수 없음, 문자열, 유니 코드, 바이트, BigEndianUnicode, UTF8, UTF7, Ascii"입니다.
독립형 유틸리티 접근 방식
iconv -f ISO-8859-1 -t UTF-8 in.txt > out.txt
-f ENCODING the encoding of the input
-t ENCODING the encoding of the output
이 인수 중 하나를 지정할 필요는 없습니다. 현재 UTF-8 로케일로 설정됩니다.
당신이 vim
을 가지고 있다면 이것을 사용할 수 있습니다 :
모든 인코딩에 대해 테스트하지 않았습니다.
이것에 대한 멋진 부분은 소스 인코딩을 알 필요가 없다는 것입니다
vim +"set nobomb | set fenc=utf8 | x" filename.txt
이 명령은 파일을 직접 수정합니다.
+
: vim이 파일을 열 때 명령을 직접 입력하는 데 사용됩니다. 보통 특정 줄에서 파일을 여는 데 사용됩니다 : vim +14 file.txt
|
: 여러 명령의 구분 기호 (예 : bash에서 ;
와 같은)set nobomb
: utf-8 BOM 없음set fenc=utf8
: 새 인코딩을 utf-8 doc 링크로 설정x
: 파일 저장 및 종료filename.txt
: 파일 경로"
: 파이프 때문에 큐트가 있습니다. (그렇지 않으면 bash는 bash pipe로 사용할 것입니다)리눅스에서는 아주 강력한 recode 명령을 사용하여 다른 문자 집합과 줄 끝 문제를 시도하고 변환 할 수 있습니다. recode -l 는 도구가 변환 할 수있는 모든 형식과 인코딩을 보여줍니다. 그것은 매우 긴 목록 일 가능성이 있습니다.
Get-Content -Encoding UTF8 FILE-UTF8.TXT | Out-File -Encoding UTF7 FILE-UTF7.TXT
입력 된 BOM이 올바른 것으로 가정 할 수있는 가장 짧은 버전 :
gc FILE.TXT | Out-File -en utf7 file-utf7.txt
나는 이것을 .bashrc
에 넣었다.
utf8()
{
iconv -f ISO-8859-1 -t UTF-8 $1 > $1.tmp
rm $1
mv $1.tmp $1
}
.. 이렇게 파일을 변환 할 수 있습니다 :
utf8 MyClass.Java
Windows에서 메모장 + +를 사용하여 ISO-8859-1에서 UTF-8으로 변환 할 수있었습니다. "Encoding"
를 클릭 한 다음 "Convert to UTF-8"
을 클릭하십시오.
문자 인코딩 일치하는 모든 텍스트 파일 자동 감지 됨 일치하는 모든 텍스트 파일은 utf-8
인코딩으로 변환됩니다.
$ find . -type f -iname *.txt -exec sh -c 'iconv -f $(file -bi "$1" |sed -e "s/.*[ ]charset=//") -t utf-8 -o converted "$1" && mv converted "$1"' -- {} \;
이러한 단계를 수행하려면 -exec
플래그와 함께 한 줄을 실행하고 -c
와 함께 위치 인수 "$1"
로 파일 이름을 전달하여 -- {}
와 함께 하위 셸 sh
이 사용됩니다. 그 사이에 utf-8
출력 파일의 이름은 임시로 converted
입니다.
어디에 file -bi
의미 :
-b, - brief
출력 줄에 파일 이름을 앞에 붙이지 마십시오 (간단한 모드).
-i, --mime
file 명령이 인간이 읽을 수있는 전통적인 형식이 아닌 mime 형식 문자열을 출력하도록합니다. 따라서 그것은 'text/plain; ASCII 텍스트 "대신"charset = us-ascii "를 사용하십시오.
find
명령은 이러한 파일 관리 자동화에 매우 유용합니다.
more find
galore 는 여기를 클릭하십시오.
PHP iconv ()
iconv("UTF-8", "ISO-8859-15", $input);
DOS/Windows : 코드 페이지
chcp 65001>NUL
type ascii.txt > unicode.txt
chcp
명령을 사용하여 코드 페이지를 변경할 수 있습니다. 코드 페이지 65001은 UTF-8의 Microsoft 이름입니다. 코드 페이지를 설정하면 다음 명령으로 생성 된 출력이 코드 페이지로 설정됩니다.
(Java) 속성 파일을 작성하려면 일반적으로 리눅스 (민트 및 우분투 배포판)에서 사용합니다.
$ native2ascii filename.properties
예 :
$ cat test.properties
first=Execução número um
second=Execução número dois
$ native2ascii test.properties
first=Execu\u00e7\u00e3o n\u00famero um
second=Execu\u00e7\u00e3o n\u00famero dois
추신 : 나는 특수 문자를 강제로 portugues에서 실행 번호 1/2 writed.
제 경우에는, 첫 번째 실행에서 나는이 메시지를 받았습니다 :
$ native2ascii teste.txt
The program 'native2ascii' can be found in the following packages:
* gcj-5-jdk
* openjdk-8-jdk-headless
* gcj-4.8-jdk
* gcj-4.9-jdk
Try: Sudo apt install <selected package>
첫 번째 옵션 (gcj-5-jdk)을 설치하면 문제가 해결되었습니다.
나는 이것이 누군가를 돕기를 바랍니다.
필자가 가장 좋아하는이 도구는 두 가지 매우 편리한 기능을 가진 Jedit (Java 기반 텍스트 편집기)입니다.
이 Python 스크립트를 사용하십시오 : https://github.com/goerz/convert_encoding.py 모든 플랫폼에서 작동합니다. Python 2.7이 필요합니다.
Ruby :
Ruby -e "File.write('output.txt', File.read('input.txt').encode('UTF-8', 'binary', invalid: :replace, undef: :replace, replace: ''))"
출처 : https://robots.thoughtbot.com/fight-back-utf-8-invalid-byte-sequences
IntelliJ IDEA IDE, 현재 문자셋이 표시된 상태 표시 줄 (아래)의 오른쪽에있는로드 된 파일의 인코딩을 변경하십시오. 다시로드 또는 변환하라는 메시지가 나타나면 변환을 사용하십시오. 미리 원본 파일을 백업했는지 확인하십시오.