당신의 AI를 정말 신뢰할 수 있습니까?

authors

Igor Rikalo

President & COO at o9 Solutions

Artificial Intelligence Global Trends

Published on: April 8, 2026

Updated on: April 20, 2026

8 read min

아래 주제들을 o9의 Regional AI Summit에서 더 깊이 있게 살펴보시기 바랍니다. 400명 이상의 선도적인 엔터프라이즈 계획 혁신 리더와 전문가들이 함께하는 Summit은 6월 4일 네덜란드 암스테르담에서 개최되는 aim10x Europe, 그리고 9월 23일 미국 시카고에서 열리는 aim10x Americas에서 만나보실 수 있습니다. 본 행사의 참가비는 무료이며, 좌석이 한정되어 있으니 사전 등록을 권장해 드립니다.

다음과 같은 상황을 떠올려 보십시오.

한 계획 수립 팀이 새로운 AI 기반 도구를 소개받습니다. 그 안에 탑재된 모델은 매우 인상적입니다. 방대한 데이터를 한 번에 흡수하고, 사람이 발견하기 어려운 패턴을 찾아내고, 몇 초 만에 실행 가능한 추천안을 생성해 냅니다. 팀원들은 자연스럽게 관심을 보입니다.

그때 누군가가 묻습니다. “왜 이런 추천이 나온 거죠?” 그리고 돌아오는 답은 사실상 이렇습니다. “이 AI 모델이 그렇게 판단했기 때문입니다.”

바로 그 순간, 도입 프로세스는 중단됩니다. 추천이 틀려서가 아닙니다. 오히려 완벽하게 맞을 수도 있습니다. 하지만 수백만 달러 가치의 재고 책임을 지는 공급망 계획 담당자(Supply Chain Planner)가 내부(로직)를 알 수 없는 ‘블랙박스’에 자신의 커리어와 평판을 걸 수는 없습니다. CFO에게 수요 예측을 설명해야 하는 수요 관리자는 그 숫자가 도출된 논리를 명확히 제시할 수 있어야 합니다. 공급업체와 협상을 진행하는 구매 책임자(Procurement Leader) 또한 시스템이 특정 리스크를 왜 감지했는지의 근거를 이해해야만 합니다.

이러한 장면은 오늘날 전 세계 수많은 기업에서 반복되고 있으며, 더 근본적인 문제를 드러냅니다. 기업들이 경쟁적으로 AI를 운영에 도입하는 과정에서, 논의의 중심은 주로 벤치마크, 파라미터, 성능 지표에 맞춰져 왔습니다. 어떤 모델이 더 정확한가? 어떤 아키텍처가 특정 테스트에서 더 높은 점수를 받는가? 물론 중요한 질문입니다. 하지만 정작 AI의 도입 여부를 좌우하는 핵심 질문은 따로 있습니다. AI가 제시한 결과를 실제로 실행해야 하는 사람들이, 과연 그 결과를 신뢰할 수 있는가?

저는 AI 도입의 성패를 결정짓는 핵심 요소는 근소한 정확도의 향상이 아니라 바로 ‘신뢰’라고 믿습니다. 그리고 그 신뢰는 단순히 더 정교한 언어 모델에서 비롯되는 것이 아니라, 설명가능성(Explainability), 일관성(Consistency), 그리고 비즈니스 로직과의 정합성(Alignment)을 통해 구축됩니다.

신뢰(Trust)의 결핍

기업용 AI가 ‘신뢰의 결핍’ 문제에 직면해 있다는 사실은 이제 부정하기 어렵습니다. MIT의 NANDA 이니셔티브에 따르면, 생성형 AI 파일럿 프로그램의 약 95%가 실제적인 재무 성과(Bottom Line)에 측정할 수 있는 영향을 미치지 못하고 있습니다. 동시에 S&P Global의 리서치에서는 2025년 기준, 기업의 42%가 AI 프로젝트의 상당수를 운영(Production) 단계에 이르기 전에 중단한 것으로 나타났습니다. 이는 전년의 17%에서 많이 증가한 수치입니다. 이러한 결과는 기술의 실패가 아닙니다. 모델의 성능은 그 어느 때보다 향상되었습니다. 바로 ‘수용(Adoption)’의 실패입니다.

여기에 ‘환각(Hallucination)’ 문제는 상황을 더 악화시킵니다. 대규모 언어 모델(LLM)은 매우 뛰어난 역량을 갖추고 있지만, 한 가지 잘 알려진 리스크가 존재합니다. 바로 사실이 아닌 내용을, 마치 권위 있고 정확한 정보처럼 생성해 낸다는 점입니다. 업계 연구에 따르면, 기업에서 AI를 사용하는 사용자 중 거의 절반이 환각된 콘텐츠를 기반으로 최소 한 번 이상 중요한 의사결정을 내린 경험이 있는 것으로 나타났습니다. 소비자 환경에서는 환각(Hallucination)이 단순한 불편 사항으로 끝날 수 있습니다. 그러나 의사결정이 공급망 전체, 재무 계획, 나아가 계약상 약속 (Commitment) 이행에 연쇄적으로 영향을 미치는 기업 환경에서는 그 결과가 매우 치명적일 수 있습니다.

설령 LLM이 환각을 일으키지 않는다고 하더라도, 여전히 중요한 한계가 존재합니다. 바로 ‘과정을 설명할 수 없다’는 점입니다. 특정 결과가 도출되기까지 어떤 데이터 간 관계가 작용했는지, 어떤 비즈니스 규칙이 적용되었는지, 어떤 인과관계를 거쳤는지를 명확히 보여줄 수 없습니다. 즉, 감사 추적(Audit Trail) 없이 결과만 제시합니다. ‘정확한 의사결정’뿐만 아니라 ‘왜 그것이 맞는지 증명’해야 하는 것이 역할인 계획 담당자에게, 이는 결코 충분한 수준이 아닙니다.

왜 정확도만으로는 충분하지 않은가

AI 업계에서는 이러한 문제를 해결하기 위해 모델의 정확도를 더욱 높이는 방향으로 접근해 왔습니다. 예를 들어, 정확도를 95%에서 98%로 끌어올리면 자연스럽게 신뢰도도 높아질 것이라는 가정입니다.

하지만 이는 실제 현장에서 신뢰가 형성되는 방식을 오해한 접근입니다. 인간-자동화 시스템 간 상호작용에 대한 수십 년간의 연구는 이를 명확히 보여줍니다. Lee와 See(2004)의 기초 연구에 따르면, 자동화 시스템에 대한 신뢰는 단순한 성능뿐만 아니라, 사용자가 시스템의 작동 방식을 얼마나 이해할 수 있는지, 그 행동을 얼마나 예측할 수 있는지, 그리고 시스템의 목표가 자신의 목표와 얼마나 일치하는지에 의해 결정됩니다. 이들이 제시한 프레임워크는 신뢰를 세 가지 요소로 설명합니다. 첫째는 시스템의 성능(Performance), 둘째는 작동 과정(Process), 셋째는 목적(Purpose)입니다. 이 세 가지 요소 중 어느 하나라도 명확하지 않을 경우, 기술적 정확도가 아무리 높더라도 신뢰의 근간은 흔들리게 됩니다.

이는 현재 엔터프라이즈 AI 환경에서도 그대로 적용됩니다. 결국 신뢰는 다음 세 가지 요소들의 상관관계에 의해 결정됩니다.

첫째, 설명 가능성(Explainability): 이 결과가 왜 나왔는지를 이해할 수 있는가?
둘째, 일관성(Consistency): 동일한 질문에 대해 매번 다른 답이 아니라 예측 가능한 결과를 제공하는가?
셋째, 비즈니스 로직과의 정합성(Alignment): 해당 결과가 실제 우리 비즈니스의 제약 조건(Constraints), 정책 (Policies), 거래관계(Commercial Relationships)를 제대로 반영하고 있는가?

문제는 LLM 단독으로는 이 세 가지를 모두 충족하기 어렵다는 점입니다. LLM의 추론 과정은 불투명하고, 프롬프트에 따라 결과가 달라질 수 있으며, 기업 운영의 근간이 되는 규칙과 비즈니스 맥락을 본질적으로 이해하지 못합니다. 파인튜닝을 하거나, 프롬프트 엔지니어링을 적용하고, 각종 통제 기준을 덧붙일 수는 있습니다. 그러나 이는 본래 신뢰성을 고려해 설계되지 않은 시스템 위에 사후적으로 신뢰를 덧입히는 작업에 가깝습니다.

물론 LLM은 분명한 기술적 혁신입니다. 비정형 데이터를 처리하고, 자연어를 이해하며, 패턴을 학습하는 능력은 매우 뛰어납니다. 중요한 질문은 LLM 역량 여부가 아니라, 그 강력한 기술을 어떤 시스템적 기반과 결합하여 신뢰를 구축할 것인가에 있습니다.

RAG와 통제 기준(Guardrail)만으로 충분할까?

일부에서는 리트리벌 (RAG), 프롬프트 엔지니어링, 출력 통제 기준(Guardrail)만으로도 LLM을 기업 환경에서 신뢰할 수 있는 수준까지 끌어올릴 수 있다고 말합니다. 분명 이런 접근은 도움이 됩니다. RAG는 검색된 문서를 기반으로 모델의 응답을 생성하도록 해 환각을 줄이는 데 기여하고, 가드레일은 허용 범위를 벗어나는 출력을 걸러냅니다. 프롬프트 엔지니어링 역시 모델이 더 신뢰도 높은 답변을 내놓도록 유도할 수 있습니다.

하지만 이는 완화 전략(Mitigation Strategies)일 뿐, 구조적인 해결책은 아닙니다. RAG는 잘못된 정보나 예전 데이터를 검색하더라도, 이를 인지하지 못한 채 답변을 제시합니다. 통제 기준은 문제가 발생한 이후 이를 감지하는 방식일 뿐, 잘못된 추론(flawed reasoning)이 생성되는 것을 막아주지는 못합니다. 그리고 프롬프트 엔지니어링은 본질적으로 매우 취약합니다. 표현이 조금만 달라져도 결과가 의미 있게 달라질 수 있고, 바로 이 점이 계획 담당자들의 신뢰를 무너뜨리는 일관성(Consistency) 문제로 이어집니다.

핵심은 여전히 그대로입니다. 이러한 접근만으로는 시스템이 비즈니스가 실제로 어떻게 작동하는지를 이해하게 만들 수 없습니다. 수요 신호(Demand Signals)와 공급 제약(Supply Constraints) 사이의 인과관계를 모델링 (Encode)하지 못하며, 추천안이 타당한지 판단할 때 계획 담당자가 기준으로 삼는 규칙, 정책, Commercial 구조 역시 시스템 안에 제대로 반영되지 않습니다. 결과적으로 출력의 품질은 일부 개선될 수 있지만, 아키텍처 자체는 변하지 않기 때문에 신뢰의 격차는 해소되지 않습니다.

엔터프라이즈 지식 그래프(EKG)가 판을 바꾼다

그래서 여기에는 다른 접근이 필요합니다. 지금 이 신뢰의 격차를 해소하기 위한 여러 방법이 등장하고 있습니다. o9 Solutions가 집중적으로 투자해 온 방식이자, 가장 구조적으로 탄탄한 접근은 Symbolic AI와 LLM을 결합한, 이른바 뉴로심볼릭 (Neuro-Symbolic) 아키텍처입니다.

이 접근은 LLM의 강점과 Symbolic AI의 강점을 결합합니다. 즉, 구조화된 지식 모델, 인과관계, 비즈니스 규칙, 제약 조건 로직을 함께 활용하는 방식입니다. 이 Symbolic Layer의 중심에는 엔터프라이즈 지식 그래프(Enterprise Knowledge Graph, EKG)가 있습니다. 이 그래프는 기업의 실제 구조를 그대로 담아냅니다. 기업의 실제 구조, 즉 제품과 공급업체의 관계, 채널별 수요 신호의 흐름, 생산능력 (CAPA) 제약과 리드타임(Lead Time)의 상호 작용, 재무 목표가 운영 계획과 어떻게 연결되는지 등을 구조화합니다.

이 아키텍처 위에서 동작하는 AI 에이전트가 어떤 추천안을 제시할 때, 그것은 단순한 확률적 추정값을 내놓는 것이 아닙니다. 실제 비즈니스 관계를 반영한 구조화되고 감사 가능한 그래프를 따라 추론한 결과입니다. 따라서 모든 출력은 설명할 수 있습니다. 그것도 사후적으로 그럴듯한 설명을 덧붙이는 방식이 아니라, 계획 담당자가 직접 확인하고, 질문하고, 검증할 수 있는 정확하고 단계적인 추론 과정으로 제시됩니다.

이것이 바로 설명 가능성(Explainability) 과제를 해결하는 방식이며, 이는 아무리 LLM을 정교하게 파인튜닝 하더라도 근본적으로는 얻기 어려운 수준입니다. 예를 들어, 우리 시스템이 어떤 계획 담당자에게 “재고 부족 리스크가 높아졌다”라고 알려줄 경우, 단순히 경고만 주는 것이 아닙니다. 어떤 수요 신호가 변동되었는지, 어떤 공급 제약이 더 강화되었는지, 어떤 안전 재고가 충분하지 않은지를 Knowledge Graph를 통해 정확히 추적해 보여줄 수 있습니다. 계획 담당자는 이를 무조건 믿을 필요가 없습니다. 시스템의 논리를 직접 확인하고, 자신의 현업 경험과 대조해 검증할 수 있기 때문입니다.

이 접근은 일관성(Consistency) 과제도 해결합니다. Symbolic Layer는 확률적 생성 방식이 아니라, 정의된 구조와 규칙을 기반으로 작동합니다. 따라서 동일한 입력이 주어지면 동일한 결과가 나옵니다. 계획 담당자는 시스템이 예측할 수 있게 동작한다는 확신을 가질 수 있고, 이는 AI를 실제 운영 프로세스에 통합하기 위한 필수 조건입니다.

또한 정합성(Alignment) 과제도 해결할 수 있습니다. 엔터프라이즈 지식 그래프(EKG)는 각 기업의 도메인 전문가와 협력해 구축되며, 그 기업만의 정책, 제약 조건, 거래관계(Commercial Relationships)가 명시적으로 반영됩니다. AI는 데이터 패턴만 보고 비즈니스 운영 방식을 추정하는 것이 아니라, 비즈니스가 실제로 어떻게 작동하는지를 구조적으로 알고 있는 상태에서 판단하게 되는 것입니다. 그 이유는 그 지식이 시스템 안에 명확하게 모델링 되어 있기 때문입니다.

물론 여기에는 분명한 트레이드오프(trade-off)가 있습니다. 엔터프라이즈 지식 그래프를 구축하려면 도메인 모델링에 대한 실질적인 투자가 필요하며, 결코 간단한 작업이 아닙니다. 현업 전문가의 시간 투입이 필요하고, 정교한 설계가 뒤따라야 하며, 비즈니스가 변화할 때마다 지속적인 유지보수도 필요합니다. 하지만 바로 그 투자가, 범용 모델만으로는 제공할 수 없는 구조적 신뢰를 만들어냅니다. 어쩌면 구축이 어렵다는 사실 자체가 핵심일지도 모릅니다. 신뢰는 편의성이 아닌, 엄격함(Rigour)을 통해 확보되는 것이기 때문입니다.

신뢰가 도입을 이끌고, 도입이 가치를 만든다

엔터프라이즈 AI의 가치는 랩실에서 만들어지지 않습니다. 그 가치는 계획 담당자가 AI의 추천을 신뢰하고 실제로 실행에 옮기는 순간 실현됩니다. 물류 팀이 자동 보충 주문을 신뢰해 별도의 검토 없이 실행할 때, 경영진이 통합 사업 계획을 신뢰하고 이를 기반으로 투자 결정을 내릴 때, 비로소 AI의 가치가 현실이 됩니다.

이 신뢰가 없다면, 아무리 정확한 시스템이라도 실패합니다. 실제로 저는 인상적인 모델과 세련된 대시보드를 갖춘 AI 기반 계획 시스템을 도입하고도, 계획 담당자들이 AI의 로직을 검증할 수 없다는 이유로, 결국 다시 엑셀로 프로세스를 재구성하는 사례를 수없이 봤습니다. 그렇게 되면 도입 후 1년이 채 지나기도 전에 해당 시스템은 실무에서 외면받는 채 사장(Shelfware)되고 맙니다. 문제는 정확도가 아니라, 바로 신뢰였습니다.

반대로, 신뢰를 의도적으로 구축한 경우는 전혀 다른 결과를 만들어냅니다. 세계 최대 규모의 글로벌 맥주 기업 중 한 곳은 전 세계 사업장에서 터치리스 플래닝(Touchless Planning) 비중을 높이기 위한 프로젝트에 착수했습니다. 단순히 툴을 배포하고 사용자들이 알아서 수용(Adoption)하기를 바라는 대신, 이들은 체계적인 '피드백 루프(Feedback Loop)'를 구축했습니다. 계획 Cycle마다 이전 Cycle 대비 편차를 분석하고, 여전히 수작업 개입이 빈번한 병목 지점을 찾아내고, 그 근본 원인을 명확히 규명했습니다. 그리고 Cycle마다 이를 해결하기 위한 개선을 반영해, 플랫폼이 점점 더 많은 반복 업무를 흡수하고 계획의 품질 또한 지속적으로 향상되도록 만들었습니다. 이들은 단순히 시스템이 ‘구축되었는지’가 아니라, 계획 담당자들이 실제로 시스템을 사용하고 있는지, 수립된 계획이 실행 단계에서도 유효한지, 그리고 사용자들이 이 시스템을 동료에게 추천할 의향이 있는지를 기준으로 성과를 측정했습니다.

그 결과는 기술이 아니라 신뢰에서 비롯된 성과였습니다. 터치리스 플래닝 비율이 20% 증가했고, 월 단위 수요 예측 정확도는 11% 개선되었습니다. 계획 담당자들은 업무 시간의 30%를 줄일 수 있었으며, 전체적으로 1억 달러 이상의 가치를 창출했습니다. 동시에 재고 수준은 4년 만에 최저치로 낮추는 동시에, 서비스 레벨(Service Level)은 4년 만에 최고치를 달성하는 성과를 거두었습니다. 기술도 물론 중요하지만, 도입의 성패를 가른 결정적 요인은 투명성, 검증, 그리고 지속적 개선의 선순환 구조였습니다.

리더를 위한 세 가지 제언

만약 신뢰가 AI 도입의 진짜 병목이라면—그리고 저는 그렇다고 확신합니다—앞으로의 접근은 단순히 더 큰 모델에 투자하는 것만으로는 부족합니다. 기업의 리더에게 다음 세 가지를 제안합니다.

첫째, 설명 가능성(Explainability)을 솔루션 구매 선택의 필수 기준으로 삼으십시오. 계약을 체결하거나 개발을 승인하기 전, 시스템의 권고안의 도출 근거를 계획 담당자에게 제시할 수 있는지, 특정 데이터와 비즈니스 규칙까지 추적할 수 있는지, 그리고 거버넌스 기준을 충족하는 감사 추적(Audit Trail)을 제공하는지 확인해 보세요. 이 요건이 충족되지 않는다면, 데모가 아무리 인상적이어도 실제 운영으로 확산되지 못할 가능성이 큽니다.
둘째, 비즈니스 로직 모델링에 선제적인 투자가 필요합니다. 범용 AI는 개별 기업의 제약 조건, 정책, Commercial 관계를 이해하지 못합니다. 따라서 도메인 모델링을 Go-Live 이후 설정 단계가 아닌, 전문가가 참여하는 핵심 워크스트림으로 계획해야 합니다. 이 과정을 제대로 수행하는 기업은 시간이 지날수록 신뢰를 확보하며, 더 높은 수준의 자율 의사결정 체계로 나아가는 ‘복리 우위(Compounding Advantage)’를 구축하게 될 것입니다.
셋째, aim10x Summits 행사에 참여해 보시기 바랍니다. 전 월스트리트의 금융 모델링 전문가이자 스탠퍼드대학교 응용수학 겸임교수이며, 현재 o9의 AI 전략 및 R&D를 총괄하고 있는 Ashwin Rao 박사가 본 행사에 참여하여 Neuro-Symbolic AI의 미래와 이것이 엔터프라이즈 Planning에 미치는 실질적인 변화에 대해 심도 있는 통찰을 공유할 예정입니다. 6월 4일 암스테르담에서 열리는 aim10x Europe, 9월 23일 시카고에서 열리는 aim10x Americas에서 만나보실 수 있습니다. 참가비는 무료이지만 좌석이 한정되어 있으니, 여러분의 팀과 미리 등록하시길 권장해 드립니다.

행사에서 직접 만나 뵙기를 기대합니다.

aim10x Europe 2026:
o9’s Regional AI Summit

유럽의 선도 기업들은 Agile, Adaptive, Autonomous Planning & Execution을 통해 운영 모델을 어떻게 재설계하고 있는지 확인해 보세요.

지금 무료로 등록하기

aim10x Americas 2026:
o9’s Regional AI Summit

변화와 불확실성이 일상이 된 시대, 미주 전역의 선도 기업들은 어떻게 VUCA를 가치로 전환하고 Agile, Adaptive, Autonomous Planning & Execution으로 운영 모델을 혁신하고 있는지 확인해 보세요.

지금 무료로 등록하기

About the authors