지능 에이전트는 시각, 청각 등의 인식, 언어 이해 기법을 통해 세상과 상호 작용한다.
인간과 인공지능이 인식하는 방법의 차이를 이해하며, 주변 환경을 인식하는 원리와 활용 분야를 탐색한다.
센서(sensor)란 주변의 환경 정보를 측정하여 전기적 신호로 바꾸는 장치로 우리 주변에서 쉽게 볼 수 있다.
지능 에이전트의 작동
지능 에이전트는 센서를 이용하여 환경 정보를 수집하고 세상을 인식한다. 환경 정보는 빛, 소리, 온도, 습도, 동작과 같은 아날로그 신호이다. 센서는 이러한 아날로그 신호를 입력받아 전기적 신호로 바꾸고 A/D(Analog/Digital) 변환기를 통해 디지털 정보로 변환한다.
A/D 변환기는 아날로그 신호를 샘플링, 양자화, 부호화의 과정을 거쳐 디지털 정보로 변환해 준다. 샘플링은 연속된 아날로그 신호를 일정한 시간 간격에 따라 나누는 과정이고, 양자화는 표본화한 값을 1, 2, 3, 4와 같은 숫자로 나타내는 과정이다. 마지막 부호화는 양자화된 값을 0과 1로 이루어진 이진수로 표현하는 과정이다.
센서의 종류
센서는 인간의 오감을 본떠 만든 것으로 감각 기관 역할을 한다. 센서의 종류는 시각을 대신할 수 있는 카메라 센서, 청각을 대신할 수 있는 사운드 센서, 촉각을 대신할 수 있는 압력 센서, 미각을 대신할 수 있는 바이오센서, 후각을 대신할 수 있는 가스 감지 센서 등이 있다. 각각의 센서는 다양한 원리에 의해 작동되며, 이러한 센서들을 활용하여 스마트홈 시스템을 구축할 수 있다.
온도 센서, 습도 센서, 조도 센서, 동작 센서, 카메라 센서
스마트홈 시스템이 구축된 곳에서 지능 에이전트는 실시간으로 집 안의 온도와 습도를 측정하여 상황에 맞게 에어컨이나 난방기 등의 기기를 작동시킬 수 있고, 동작 센서를 이용하여 가족이 외출했으면 조명을 끄고, 창문을 닫는 등의 행동을 할 수 있다. 또한 조도 센서의 정보를 이용하여 자동으로 집 안과 밖의 전등을 끄고 켤 수 있고, 집 주변의 가로등도 제어할 수 있다.
인식이란 환경 정보를 통해 대상을 분별하고 비교, 판단, 추론 등의 과정을 거쳐 대상을 이해하는 과정이다.
즉, 사물의 외면적인 특징을 이해하여 사물에 대해 파악하고 판단하여 안다는 것을 나타낼 때 사용하는 개념이다.
인식 과정
인간이 '표정', '억양', '행동' 등의 정보를 통해 감정을 인식하듯이, 지능 에이전트도 인간과 유사한 방법으로 감정을 인식한다.
지능 에이전트가 모나리자의 감정을 인식하는 방법은 먼저 카메라 센서로 모나리자 그림을 캡처하고 캡처된 이미지에서 얼굴을 탐지한다. 인식한 얼굴에서 눈과 눈썹의 모양, 입 모양의 특징을 추출하면 표정에 대한 정보를 얻을 수 있다. 지능 에이전트는 이 정보를 학습에 의한 정보와 비교하고, 판단하고, 추론하여 감정을 인식한다.
인식 단계에서 가장 중요한 과정은 특징 추출 단계로, 인식 성능을 향상하려면 특징을 잘 뽑아내야 한다. 예를 들어, 인간은 감정에 따라 얼굴에 기쁨, 놀람, 슬픔, 화남의 표정이 나타나며, 이 표정에 따라 눈, 눈썹, 입술 등의 위치가 달라진다.
특징 추출 -> 전체를 이해하기 위해 가장 중요한 부분을 잘 뽑아내는 것
무인 상점
인간의 도움 없이 쇼핑할 수 있는 상점, 지능 에이전트가 다양한 센서를 이용 -> 고객이 쇼핑 전 과정을 인식하고 관리
고객 정보 인식 -> 고객 탐지 및 물건 인식 -> 장바구니 담기 -> 결제하기
자율 주행 자동차
라이다 센서, 위치 확인 시스템, 레이더 센서, 카메라 센서 등으로 지능 에이전트가 조종하는 시스템
라이다(LiDAR) 센서 : 레이저 및 반사 정보로 주변 환경 3차원 지도로 제공
위치 확인 시스템(GPS) : 차량의 운행 경로, 현재 위치를 알려 줌
레이더(RADAR) 센서 : 전파를 이용, 좁은 범위의 물체를 인식, 보행자 탐지, 충돌 방지, 긴급 제도, 측면 접근 차량 알림을 위해 사용
카메라(camera) 센서 : 빛을 이용해 물체의 형태와 색깔을 감지, 교통 표지판 인식과 차선 이탈 경고 등을 위해 사용
지능 에이전트(AI 컴퓨터) : 주변 경로를 실시간으로 분석, 제어 장치로 전달
승용차가 트럭의 흰색 면을 하늘로 착각하여 트럭을 인식하지 못하고 들이받아 운전자가 사망하는 사건이 있었음
이와 같이 센서에만 의존하기에는 아직 지율 주행에 많은 한계가 있음.
컴퓨터 비전 - 인간처럼 컴퓨터가 이미지에서 의미 있는 정보를 추출하고 인식하는 방법을 연구하는 학문
이미지 인식은 컴퓨터 비전의 가장 대표적인 기술
1) 이미지 인식 과정
이미지 수집 및 탐지 -> 이미지 표현 -> 특징 추출 -> 인식
2) 컴퓨터 비전의 활용 분야
인간의 시각을 대신한 모든 영역에 활용할 수 있음
주요 연구 영역은 객체 탐지, 이미지 분할, 이미지 분류
객체 탐지 - 이미지 내부에 물체가 있는지 여부와 그 위치 탐지
이미지 분할 - 탐지의 한 영역, 탐지보다 더 정교하게 이미지를 픽셀 단위로 추출
이미지 분류 - 이미지 내부의 객체가 무엇인지를 구분
객체 탐지 - 이미지 내부에 물체가 있는지 여부와 그 위치 탐지
욜로(YOLO) - 영상을 스트리밍하면서도 화면상의 객체들을 부드럽게 구분할 수 있는 모델
a) 이미지를 13 x 13 크기의 격자로 나눔, 하나의 격자당 5개의 상자를 그림
b) 중복해서 격자를 그림, 두껍게 그려진 상자에 물체가 있을 확률이 높음
c) 필요 없는 선을 지우고, 분류와 결합하여 물체를 구분함
활용 사례 : 자율 주행 자동차의 차선, 차량, 인간, 표지판 등 위치 탐색 및 분류, 스마트폰 카메라로 글자 인식
이미지 분할 - 탐지의 한 영역, 탐지보다 더 정교하게 이미지를 픽셀 단위로 추출
활용 사례 : 코로나-19 탐지를 위한 흉부 엑스레이 이미지 분할 방법 이용 분석
이미지 분류 - 이미지 내부의 객체가 무엇인지를 구분
인공지능은 여러 장의 동물 이미지를 학습하여 각 동물의 특징을 파악
-> 새로운 이미지를 학습한 특징과 비교해 가장 비슷한 동물로 분류
활용 사례 : 택배 분류에서의 주소 수집, 구글 포토의 사진 카테고리별 분류
인간과 인공지능 둘 다 시각 정보 처리하는 방식 비슷, 하지만 세부 과정과 성능에서 차이
인간
빛, 색, 윤곽, 깊이 정보 차례로 처리
눈, 해상도와 처리 속도에서 인공지능보다 월등히 뛰어남
이미지 직관적으로 구분
3차원 정보 쉽게 파악
인공지능
여러 계층에서 수학적 연산으로 물체 인식
실시간 이미지 처리에 필요한 메모리 저장과 처리 속도 문제 있음
비슷한 모습의 물체 구분 어려움
많은 양의 학습 데이터 필요
2차원 이미지로 정보 받아들임
3차원 원근감 측정 어려움
인공지능, 이미지 적대적 공격에 취약
특정 노이즈 이미지 합성하면 인식 오류 발생
적대적 공격이란, 공격자가 노이즈 의도적으로 추가해 인식 오류 일으키는 것
이미지 픽셀당 8비트 해상도, 0~255 숫자로 표현
노이즈 합성하면 복잡한 모델에서 입력된 사진과 노이즈 숫자 계산되어 잘못된 결과 나올 수 있음
예: 자율 주행 자동차가 STOP 표지판 인식해 멈추어야 하는데, 공격자가 노이즈 추가해 GO 표지판으로 인식하게 만들 경우
이런 상황, 인공지능의 신뢰성과 보안에 큰 타격
악의적 공격자가 이미지 임의로 조작하면 큰 사고 이어질 수 있음
적대적 공격과 방어 기술 간의 대립 주목해야 함
인간이 상요하는 언어를 컴퓨터가 듣고 해석하여 텍스트 데이터로 전환하는 것
STT(Speech-to-Text)라고도 함
음성 신호 - 부호화 - 특징 추출(음소 추출) - 패턴 비교 - 인식
2) 음성 인식 활용
인공지능 스피커 - 음성 인식을 통해 언어를 이해하고 응답하는 장치, 음성 비서, 음성 검색, 음성 통역 등으로 자동차 이동, 영어 발음 평가 등에 활용
3) 언어 이해 과정
언어 이해 - 문장 속의 의미 파악에 문장에서 단어를 분리하여 단어 간의 관계를 분석하는 과정까지 포함
텍스트 분류 - 뉴스, 문서 분류
텍스트 유사도 - 문장 유사도, 표절 검사
감정 분석 - 음성, 텍스트로 정서 상태 분석
챗봇 - 음성, 텍스트를 통해 인간과 대화
기계 번역 - 서로 다른 언어 간 번역
단어를 공간에 배치하는 방법
대부분의 응용 분야에 기본적으로 사용되는 방법, 워드투벡터라는 용어로 더 많이 사용
단어를 벡터로 바꾸는 방법으로, 비슷한 의미를 가진 단어들이 가까운 위치에 분포하여 그룹으로 묶을 수 있다.
대표적인 활용 사례로 기계 번역이 있다.
단어의 빈도수를 이용하는 방법
단어의 등장 횟수를 누적하는 방법
텍스트 분류에서는 정치, 경제, 사회, 스포츠 분야의 문장에서 자주 사용되는 단어의 빈도수를 기반으로 분류
텍스트 유사도에서는 두 문장에 사용된 단어의 빈도수로 문서 표절의 정도를 파악
음성 인식 -> 언어 이해 4단계(형태소 분석, 구문 분석, 의미 분석, 담화와 의도 분석) -> 검색 -> 언어 생성 -> 음성 합성
2) 인간과 상호 작용하기 위한 기술 발전
인간과 같은 수준의 대화 - 핵심은 '상식', '감정', '의도'
이것들은 암묵적 지식으로 경험, 체험, 등을 통해 학습되지만 겉으로는 드러나지 않음
인공지능은 암묵적 지식을 학습하기 어려우며
감정을 이해하기 어려움
문장의 구조를 파악하기 어려움
말하는 이의 의도를 정확하게 파악하기 어려움
대화가 길어지면 이전 대화 내용과 연결 지어 이해하기 어려움
과 같은 문제를 겪을 수 있다.
인간이 말을 이해하는 원리가 아직 밝혀지지 않은 것도 이 분야의 난제임