Về công cụ này
Đọc văn bản từ bất kỳ hình ảnh nào — một bức ảnh, ảnh chụp màn hình hay trang tài liệu được scan — bằng công cụ OCR Tesseract được biên dịch sang WebAssembly và chạy hoàn toàn trong trình duyệt của bạn. Hình ảnh không bao giờ được tải lên; mô hình OCR chỉ được tải về một lần (rồi lưu vào bộ nhớ đệm) và toàn bộ quá trình nhận dạng diễn ra ngay trên thiết bị của bạn.
Câu hỏi thường gặp
Hình ảnh của tôi có được tải lên máy chủ OCR không?
Không. OCR thường chạy trên đám mây, nhưng ở đây toàn bộ công cụ Tesseract chạy cục bộ dưới dạng WebAssembly — hình ảnh và văn bản nhận dạng được không bao giờ rời khỏi trình duyệt của bạn.
Tại sao lần chạy đầu tiên mất vài giây?
Lần đầu tiên, công cụ sẽ tải công cụ OCR WASM và mô hình ngôn ngữ tiếng Anh (khoảng 6 MB). Cả hai đều được lưu vào bộ nhớ đệm sau đó, nên những lần chạy về sau sẽ bắt đầu nhanh chóng.
Làm thế nào để có kết quả tốt nhất?
Hãy dùng ảnh rõ nét, độ tương phản cao và tương đối thẳng. Hiện tại quá trình nhận dạng sử dụng mô hình tiếng Anh và hoạt động tốt nhất với văn bản in.