기본 콘텐츠로 건너뛰기

이북(e-book)용 e-pub 파일

e-pub파일을 만들기 위한 재료

무엇보다 가장 중요한 것은 텍스트. 책이란 무엇인가라는 정의를 먼저 내려보고자 했다. 책은 먼저 내용과 형식으로 나눌 수 있다. 지금 중요한 것은 '형식'이다. 인류의 지적 유산이나 철학, 깊은 성찰이 담긴 내용은 일단 무시하기로 했다. 책을 물리적으로 분리해 본다면 종이와 잉크, 포맷으로 구분해 본다면 표지, 목차, 내용. 구성요소로 나누면 글자, 이미지, 여백. 지금 필요한 것은 글(text)과 이미지다.


종이책에서 어떻게 디지털 파일로 된 '글(text)'와 '이미지'를 추출해 낼 수 있을까? 스캔이란 작업 자체가 아날로그(종이)를 디지털(파일)로 바꿔주는 것이다. 디지털 파일은 바로 '이미지 파일'을 의미한다. 이 이미지들을 하나의 파일 형식으로 묶은 것이 PDF. 그럼 이미지 추출은 이미 가능하다는 의미다. 북스캔을 함과 동시에 이미지 파일은 확보됐다. 이제 텍스트를 추출하면 된다. 고맙게도 기술자들이 만들어 놨다. 기술을 모르는 현대인은 고마운 마음을 표하며 잘 이용하면 된다. 앞에서 얘기했던 북스캔 업체의 옵션 중에 두 가지를 설명할 때가 되었다. 


레티나와 OCR

정확히 레티나가 의미하는 바는 모른다. 그냥 편하게 받아들이면, '레티나' 옵션을 주면 글씨가 더 또렷하게 스캔이 된다. '또렷'이란 말이 중요하다. OCR을 위한 든든한 우군이기 때문이다. 옛날 책일수록 '레티나'옵션을 주는 것이 텍스트 추출에 유리하다. 그러니 옛날 책이라면 진지하게 옵션 선택을 고민해 볼 만하다. 옛날 책일수록 폰트가 읽기 편하지 않았고, 인쇄용지나 품질이 좋지 않았기 때문에 번진 글자처럼 보인다. 흔하게 사용하는 스마트폰 사진 보정 기능 중 '선명하게'라는 것과 비슷한 것이라 생각하면 된다. 


OCR은 중요한 단어라 검색해 봤다. Optical character reader/recognition. 역시 어렵다. 한국말로 해석한 뜻도 '광학적 문자 판독장치'라는 어려운 말이다. 종이에 쓰인 글자를 텍스트(디지털 파일)로 바꿔주는 것. 또 다른 말로 '텍스트 추출기'라고 생각하면 무리 없을 것 같다. OCR은 이미지에 쓰인 문자들을 판독한 후에 텍스트로 바꿔준다. PDF 파일에 OCR을 적용하면 PDF 파일에 쓰인 글자들을 복사할 수 있게 된다. 원하는 부분을 마우스로 주욱 긁은 후 복사해서 다른 곳에 붙여 넣기 할 수 있다. 그러면 내가 눈으로 봤던 글자 이미지들이 디지털 텍스트로 빨려 나온다. 보통 OCR을 적용할 때는 '입힌다'는 표현을 쓴다. 왜냐하면, 먼저 아날로그 종이를 디지털 이미지로 만든 다음에 디지털 이미지 위에 OCR로 뽑아낸 텍스트를 덧 씌우기 때문이다. 옛날에는 OCR 기능 자체가 널리 퍼지지 않아 활용하기 어려운 기술이었으나 요즘은 스마트폰 app에서도 지원할 정도로 범용적인 기술이다. 나중에 텍스트를 별도로 추출해서 사용할 생각이 있다면 북스캔 할 때 꼭 OCR옵션을 선택해야 한다. 


Key는 인식률!

다행히 북스캔 할 때 OCR옵션과 레티나 옵션을 추가했다. 스스로의 결정에 칭찬을 해줬다. PDF 파일을 열고 텍스트를 뽑아내 봤다. 


위쪽이 책을 스캔한 그대로의 이미지이고, 아래쪽은 위의 이미지에서 긁어낸 텍스트다. 

OCR의 기술력이란! 한자까지 읽어냈다. 100%는 아니지만 상당한 글자를 다 읽어냈다. 100%가 아닌 비율이 아쉽다. 일부 잘못된 글자를 인간지능으로 교정하며 읽기에는 부족하다. 인식률을 높이려면 OCR 프로그램을  정교하게 발전시켜야 할터인데 기술 업그레이드는 전문가의 영역이다. 기술 전문가만 필요한 것이 아니라 기술을 발전시키는 동안 돈을 벌어야 한다. 기술을 사업화는 사람도 필요하다. 우리나라에서는 현재 기대하기 쉽지 않다. OCR도 사람과 비슷하게 언어별로 인식률이 달라진다. 영어기반 프로그램이라면 영어를 아주 잘 인식하겠지만, 한글의 인식률은 좀 더 떨어진다. 우리나라에서 OCR을 개발했을 리 없고 영어기반의 프로그램을 한글에 맞게 고쳤을 테니 아무래도 한글은 좀 더 인식률이 낮다. 그리고 OCR을 쓰는 사람이 아주 많지 않을 테니 누군가 돈 들여서 발전시켰을 가능성도 낮다. 


두 가지의 문제점이 더 있다. 옛날 책은 '한자'가 간간히 포함된다. 우리나라 글자도 잘 못 읽는데 복잡한 한자를 제대로 읽기는 어려울 것이다. 한자를 잘 읽으려면 중국이나 일본에서 만든 OCR 프로그램이 더 나을 것이다. 

또한, 옛날 폰트는 조악하다. 인쇄술이 그만큼 떨어지는 수준이기도 하고, 알다시피 우리나라에서 폰트에 관심 가진 것이 오래되지 않았다. 그래서 또 인식률이 낮아진다. 종이가 오래되면서 글자가 뭉개지기도 한다. 이래저래 옛날 책은 인식률이 떨어질 수밖에 없다. 결국 정리하면 100개의 텍스트 중에 약 70개의 텍스트는 확보할 수 있지만 30개의 텍스트는 알 수 없다는 뜻이다. 


구한말 지식인의 기백

100% 인식할 OCR이 없다고 한탄만 할 수는 없다. 잘못한 대통령도 추운 겨울에 촛불 하나 들고 수백만의 사람이 모아 내려오게 만든 나라의 당당한 국민이다. 나에게는 비록 노후하였으나 엄연히 글씨를 판독할 눈과 한자를 찾아낼 지식과 수정할 손가락의 힘이 있으니 어찌 좌절하리오. 내 직접 수정하며 만들어 낼터요! 인간의 땀과 혼이 담긴 텍스트 파일을 만들어 낼 용감한 여정이 시작된다. 

내가 이북 단말기 때문에 내 책의 목까지 잘라내고, 그 시체를 수습하지도 않고 와 버렸건만 PC로 소설을 읽는다는 것은 책에 대한 배신이요. 책에 대한 신의를 저버리는 행위이다. 어떻게든 e-pub파일을 구하기로 굳게 마음을 먹었다. 팔지 않는 e-pub파일을 구할 방법은 하나밖에 없다. '만들자!'

댓글

이 블로그의 인기 게시물

세계 GDP Top 6(1980~2024) 점유율

  May 14, 2024 Data 출처 : All figures were sourced from the IMF’s World Economic Outlook (April 2024 edition) and are based on using current prices. 1등 미국의 체급 1980년 이후로 2024년 까지 반세기동안 가장 낮은 점유율은 21.1%. 최저 20%, 최고 1/3 이상. 현재는 약 1/4.  코로나팬데믹 이후 나머지 경제를 압도하는 분위기 2000년 부터 시작된 중국의 놀라운 성장 거울에 비추듯 2010년에 일본과 X자로 Cross.  2020년 전세계 GDP의 1/5수준이 되자 시작된 미국과의 갈등.  중국은 계속 유지할까? 아니면 일본처럼 하락할까? 일본, 2위에서 하락 일본은 버블이 한창인 1990년대 후반 17.8%를 정점으로 2024년엔 3.8%로 하락.  경기침체와 고령화로 경제가 쇠퇴했다고 하지만, 미국의 책임(플라자 합의 등)이 있을 텐데...  UE 는 점유율이 계속 낮아지는 중. 독일 경제가 힘을 못 써서일까?  인도 는 천천히 상승하고 있다. 드라마틱하게 높아질까? 기사원문 : https://www.visualcapitalist.com/ranked-the-top-6-economies-by-share-of-global-gdp-1980-2024/ [혼잣말]  동일한 매체의 다른 기사 기준 우리나라는 2000~2022년에 약 12위권. 우리나라 GDP... 세계 관점에서 보면 잘 보이지도 않는다.  그 숫자에 얼마나 많은 사람들이 삶을 걸고 사는 중인데... 

'세상 친절한 경제 상식' 책을 내면서 고마운 분들

(2022.12.26)  '세상 친절한 경제 상식'이 대표작이다 평생 갖고 싶은 것 중 하나가 내 책이다. 그중에서도 스테디셀러. 빌딩도 갖고 싶지만 빌딩보다 꾸준하게 팔리는 책을 가지고 있으면 좋겠다고 허세 가득 상상했다. 주위의 도움과 운이 좋아 첫 책을 냈다. 그때가 2019년. 이후로 매년 한 권씩 책을 내고 있다. 첫 책이 가장 잘 팔렸다. 요즘도 누군가 찾는단다. 오랜만에 포털에서 내 책을 검색해 본다. 전직 대통령에게 소개될 만큼의 실력은 안되지만 한 달에 한 번 꼴로는 책을 언급하는 내용이 나온다. 이거 이거. 나에게도 스테디셀러라는 것이 생길까? 글쎄. 알 수 없다. 내가 가진 운은 이미 다 사용한 것 같기 때문이다. 그동안 삶을 돌아보면 참 잘난 거 없는데 꾸역꾸역 여기까지 살아온 것을 보면 로또나 경품 당첨이 안 되는 것이 당연하다. 살아온 궤적이 모두 감사할 일이니까. 겸손을 가장한 자랑은 멈추고 다시 제대로 자랑을 시작해야겠다.  '세상 친절한 경제상식' 개정판을 준비 중이다 갑자기 '미래의 창' 출판사에서 전화가 왔다. 처음엔 모르는 전화라 안 받았다. 다시 문자로 '미래의 창'이라 해서 알게 되었다. '미래의 창' 출판사는 매년 말이 되면 내년 트렌드가 뭐가 될지 모든 사람이 챙겨 보려고 사는 '트렌드 코리아'를 출간하는 곳이다. 모르는 곳에서 전화가 오면, 내가 예상할 수 없는 일로 전화가 오면 설레기보단 일단 쫀다. 뭘 잘못했나? 소심한 성격은 나이 먹어도 변하지 않는다.  고맙게도, 내 책이 '오디오 북'으로 잘 나간단다. 오디오 북 서비스 회사에서 미래의 창으로 연락이 왔고, 미래의 창에서 내게 '고맙다'는 이야기를 하려고 연락을 준 거였다. 얼떨떨했다. 내 평생 모르는 사람에게 '잘했다'라고 전화받은 기억은 없다. 얼마나 소심한 사람인지...  무슨 자신감인지 모르겠지만 책이 나온 지 좀 되었고, ...

[혼자놀기] 고대인들도 즐겼던 레저, 그림 그리기

  2003. 11.21. No. 64. 예술 본능 일러스트와 놀기 그리는 것은 본능이다.  사람들이 알든 모르든 역사상 글보다 그림이 먼저 존재했다는 것은 당연한 일이다. 아무리 신동이라도 글을 깨우치기 전에는 분명  줄 긋기부터 시작했다. 끝까지 글을 먼저 깨우쳤다고 우기는 것은 부모의 희망사항일 뿐이다. 글자의 역사는 몇 천년 전이지만 그림의 역사는 알타미라 벽화가 그려진 1만 ~1만 5,000년 전으로 거슬러 올라간다. 왜 하필 들소 떼를 동굴 안 천장에 그려 놓았는지는 알 수 없다. 이마도 그것으로 먹고 살 후세 연구자들을 위해서인지···혹은 '하도 심심해서' 그렸을지도 모르겠다. 사람에게 '그리기' 욕구는 본능이다. 어려서는 마징가 Z와 태권 V를 잘 그리는 녀석들을 보면 그렇게 부러울 수가 없었다. 예쁜 옷을 잘 그리는 아이를 부럽게 쳐다보던 누이의 눈매에서 느꼈던 동질감은 ‘왜 나는 못 그릴까? 였다. 커다란 검은자 위에 작은 동그라미 세 개로 포인트를 주어 반짝반짝 빛나는 눈을 만드는 것이 마냥 신기해 보이기도 했다.  만화는 그림의 조상 이자 예술행위다. '만화'라는 말에는 '카툰’,‘코믹스’, '애니메이션’ 등의 뜻이 포함되어 있다. 여기서 만화의 정의를 간단한 끄적거림’이라고 하자. 더해서 ‘어떤 의미나 형태를 갖춘 정도’라는 기준을 둬야 아이들의 것과 구별이 될 터. 추상화는 그 경계에 서 있을 것 같다. 내 개인적 주장이지만, 그림의 형태를 갖춘 행위에 가장 근접한 것이 '만화’가 아닐까. 모든 그림은 '끄적거림’에서 나온 것이니 만화가 그림의 조상이라고 우겨 볼 만하다. 그렇다면 ‘그림= 예술’ 일 경우 만화는 ‘끄적거림 예술’의 경지에까지 다다르는 고상한 분야인 것이다. 그리고 이 끄적거림을 즐기기 위한 목적으로 실행한다면 당신은 '예술활동을 레저에 접목한 멋진 사람'으로 변신하게 된다. 때때로 스스로의 이런 자가발전적 생각에 대견해하곤 한다. 만...