사업분야
원문·기록물 DB 구축
자료 분류부터 디지털화, 입력, 품질점검까지 공공기관 원문·기록물 자료의 DB 구축 전 과정을 직접 수행하여 안정적인 DB를 구축합니다.
다양한 자료 유형과 구축 환경에 대응 가능한 체계를 갖추고 있습니다.
✦ 전 공정 직접 수행 – 스캔·이미지 보정·TOC·PDF·OCR·QA까지 외주 없이 직접 수행
✦ 10년 이상의 공공기관 수행 실적 인력 투입 – 국회도서관·국립중앙도서관·법원도서관 등 사업 수행 인력 보유
✦ 복잡 문서 구조 완벽 처리 – 다단·표·수식·각주·고서 등 비정형 원문도 표준 공정으로 처리
✦ ISO 품질·보안 인증 체계 – ISO 9001 / 14001 인증 기반의 검수 및 납품 관리
고품질 텍스트 데이터 구축
다중 OCR 기술을 활용하여 텍스트 인식부터 교정까지 전 과정을 수행하고, 오류를 최소화한 신뢰도 높은 텍스트 데이터를 생성합니다.
복잡한 문서 구조에서도 안정적인 텍스트 추출이 가능합니다
✦ 하이브리드 OCR 엔진 – 전통 OCR + LLM OCR 병렬 처리로 단독 방식 대비 정확도 향상
✦ 할루시네이션 자동 탐지·교정 – 문자 신뢰도 기반 LLM 오인식 실시간 검출
(특허 출원 10-2025-0164324)
✦ 복잡한 레이아웃 특화 교정 – 표·그림·각주·수식 등 구조화 요소 전용 교정 파이프라인 보유
✦ 자동 라벨링 OCR 데이터셋 생성 – 교정 결과를 즉시 AI 학습용 데이터셋으로 전환하는 자체 특허 기술 적용
문서 구조 기반 데이터 가공
문서의 논리적 구조를 분석하여 텍스트, 표, 메타데이터를 분리하고, 비정형 데이터를 XML, JSON 등 구조화된 형태로 변환합니다.
검색, 분석, 시스템 연계가 가능한 데이터로 가공합니다.
✦ AI 기반 구조 자동 분석·태깅 – 목차·본문·메타데이터를 AI가 자동 인식하여 XML/JSON 구조로 변환 (특허 출원 10-2025-0123770)
✦ 기관별 맞춤 스키마 설계 – 다양한 기관에 대한 산출물 납품 경험으로, 기관 표준에 100% 부합하는 데이터 제공
✦ RAG·Private LLM 최적화 전처리 – 검색 증강 생성(RAG) 및 기관 전용 LLM 서비스에 즉시 투입 가능한 데이터 구조 설계
✦ DB 구축과 동시 XML 데이터 제공 – 원문 DB 납품 시 구조화 XML 데이터를 함께 제공 원스톱 이중 산출물 제공
AI 학습 데이터 생성
구축된 원문 데이터를 정제·가공하여 AI 모델 학습에 적합한 데이터셋으로 변환합니다.
원문 구축부터 학습데이터 생성까지
일원화된 공정으로 처리하여 품질과 일관성을 확보합니다.
✦ 주제 기반 자동 분류 특허 기술 – 서지정보·목차를 통해 텍스트를 세밀하게 주제 분류하고 LLM에 최적화된 데이터셋 생성 (특허 등록 10-2843407)
✦ 다양한 학습 과제 데이터 제작 – 요약·QA/QG·분류·NER 등 과제별 맞춤 데이터셋을 단일 원문에서 동시 생산
✦ DB 구축과 동시 학습데이터 전환 – 구축 완료 즉시 Private LLM·파인튜닝에 투입 가능한 데이터 패키지 납품
✦ 다양한 학습용 원시데이터 보유 – 원문 기반의 정형·비정형 원시데이터를 직접 보유하여 즉시 활용 가능
-
고퀄리티 웹사이트를 1/10 가격에 제공
-
사용자 친화적 관리 시스템
-
아름답고 최적화된 UI/UX 디자인
-
추가 유지보수 비용 없음
공정관리시스템(Works PMS)
Works PMS는 원문 DB 구축부터 학습용 데이터셋 생성까지 전 공정을 통합 관리하는 공정관리 시스템입니다.
분리된 작업 단계가 아닌 일원화된 생산 공정으로 운영되며, 작업 진행 상황, 품질 상태, 작업 이력을 실시간으로 관리하여 데이터 구축의 전 과정에서 품질과 일관성을 동시에 확보합니다.
이를 통해 안정적인 일정 관리와 체계적인 품질 통제가 가능합니다.
✦ 원문 구축부터 학습데이터 생성까지 전 공정 통합 관리
✦ 작업 이력 및 품질 데이터 실시간 수집·관리
✦ 공정별 진행 상황 및 작업 상태 실시간 모니터링
✦ 공정 이상 및 품질 이슈 발생 시 즉각 대응
Works PMS 구성 솔루션
Works Image
이미지 자동 보정, 검수
Works TOC
목차 입력 · 링크 · 구조 분석
Works PDF
PDF 생성 · 병합 · 품질 관리
Works OCR
OCR 인식 · LLM 기반 교정
PDF Analyzer
이미지, PDF 오류 검사
Works XML
XML/JSOM 변환기
Tag Manager
AI 학습용 태그 입력기
Works Redact
원문 개인정보 검사 프로그램
Works Rights
원문 저작권 정보 검사
Works PMS
WBS, 진척률, 품질관리