Pyside6로 GUI 프로그래밍을 하고 있는데, 모드 ON/OFF일 때 상태를 나타내는 인디케이터를 구현해보았다. 제스처 모드는 초록색 인디케이터로, 음성 인식은 주황색 인디케이터로 지정해 모드가 켜져 있는지 확인을 쉽게 할 수 있다. 하지만, 음성 인식은 실행과 동시에 바로 시작되는게 아니라, 모델을 불러오기까지 시간이 걸리기 때문에 이를 위해 로딩 애니메이션을 넣으면 좋을 것 같았다. 1. 먼저 맘에 드는 로딩 애니메이션 GIF를 찾자. Loading GIF | TenorClick to view the GIFtenor.com나는 해당 링크에서 쉽게 필요한 GIF를 찾을 수 있었다. 2. 다운로드하고, 필요한 경우 Resize 한다.PyQt, PySide 자체적으로 setFixedSize() 를 가지..
개발/Python
Mediapipe을 이용해 손인식은 어느 정도 구현했고, 이제 음성 인식을 구현할 차례다. 음성 인식 기능 요구사항은 다음과 같다.- 실시간으로 동작할 것- 인터넷 연결 없이도 작동해야 할 것 실시간으로 동작하는 것은 그렇다 쳐도, 인터넷 연결 없이 온디바이스에서 음성 인식을 구현하는 것이 쉬워 보이진 않았다. 일단 음성 인식 라이브러리부터 찾아보았다.Speech Recognition여러 온오프라인 엔진과 API를 지원하는 음성 인식 라이브러리 Python으로 음성 인식을 구현할 때 가장 많이 접하게 되는 라이브러리 중 하나다. 소스코드는 여기로. 다음과 같은 엔진/API를 지원한다.- CMU Sphinx (오프라인 동작)- Google Speech Recognition- Google Cloud Spe..
현재 산학연계 현장실습을 진행하면서 맡은 과제가 되게 재미있다. 현재 기업의 비디오월 컨트롤 프로그램에 멀티모달 인터페이스를 추가하는 것이다. 즉, 마우스 또는 키보드 외에 비디오, 오디오 입력을 인식해 시스템을 제어하는 프로그램을 만드는 것이 목표! 그중 첫 번째 단계로, 웹캠을 이용해 손가락 제스처를 인식하여 마우스를 조작하는 기능을 개발하고 있다. MediaPipeMediaPipe는 실시간 멀티미디어 애플리케이션을 위한 머신 러닝 파이프라인을 구축할 수 있는 구글의 오픈소스 프레임워크이다. MediaPipe 솔루션 가이드 | Google AI Edge | Google for Developers이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 MediaPi..
현장실습에서 맡은 업무로 멀티모달 인터페이스 애플리케이션 제작이 있는데, 손을 인식하는 과정에서 mediapipe이 사용된다. GUI로 동작하는 .exe 파일이 최종 결과물이기 때문에 작성한 코드를 pyinstaller로 빌드했는데, 계속해서 다음과 같은 에러가 표시되었다. Unhandled exception in scriptFailed to execute script 'pyi_rth_mplconfig' due to unhandled exception: DLL load failed while importing _ctypes: 지정된 모듈을 찾을 수 없습니다. 구글링을 해보니 흔히 있는 에러는 아니고, 유독 mediapipe 라이브러리를 사용한 애플리케이션을 빌드할 때 많이 발생하는 것 같았다. 이거 ..