Люди легко решают новые проблемы без какой-либо специальной подготовки или практики, сравнивая их со знакомыми проблемами и распространяя решение на новую проблему. Этот процесс, известный как рассуждение по аналогии, долгое время считался уникальной человеческой способностью.
Но теперь людям, возможно, придется освободить место для нового ребенка в квартале.
Исследование, проведенное психологами Калифорнийского университета в Лос-Анджелесе, показывает, что, к удивлению, языковая модель искусственного интеллекта GPT-3 работает примерно так же хорошо, как студенты колледжа, когда их просят решить задачи на рассуждение, которые обычно появляются в тестах интеллекта и стандартизированных тестах, таких как SAT. Исследование опубликовано в журнале Nature Human Behavior.
Но авторы статьи пишут, что исследование поднимает вопрос: является ли GPT-3 имитацией человеческого мышления в качестве побочного продукта своего огромного набора данных для обучения языку или он использует принципиально новый вид когнитивного процесса?
Без доступа к внутренней работе GPT-3, которая охраняется OpenAI, компанией, которая его создала, ученые Калифорнийского университета в Лос—Анджелесе не могут с уверенностью сказать, как работают его мыслительные способности. Они также пишут, что, хотя GPT-3 справляется с некоторыми задачами рассуждения намного лучше, чем они ожидали, популярный инструмент искусственного интеллекта по-прежнему терпит впечатляющие неудачи в других.
«Какими бы впечатляющими ни были наши результаты, важно подчеркнуть, что у этой системы есть серьезные ограничения», — сказал Тейлор Уэбб, постдокторант Калифорнийского университета в Лос-Анджелесе по психологии и первый автор исследования. «Он может рассуждать по аналогии, но не может делать вещи, которые очень просты для людей, например, использовать инструменты для решения физической задачи. Когда мы ставили перед ним задачи такого рода — некоторые из которых дети могут быстро решить, — то, что он предлагал, было бессмысленным».
Уэбб и его коллеги протестировали способность GPT-3 решать набор задач, вдохновленных тестом, известным как прогрессивные матрицы Равена, в котором испытуемого просят предсказать следующее изображение в сложном расположении фигур. Чтобы позволить GPT-3 «видеть» фигуры, Уэбб преобразовал изображения в текстовый формат, который GPT-3 мог обрабатывать; такой подход также гарантировал, что искусственный интеллект никогда бы раньше не столкнулся с подобными вопросами.
Исследователи попросили 40 студентов бакалавриата Калифорнийского университета в Лос-Анджелесе решить те же задачи.
«Удивительно, но GPT-3 не только справлялся примерно так же хорошо, как люди, но и допускал аналогичные ошибки», — сказал профессор психологии Калифорнийского университета в Лос-Анджелесе Хунцзин Лу, старший автор исследования.
GPT-3 правильно решил 80% задач — значительно выше среднего балла испытуемых—людей, составляющего чуть менее 60%, но вполне в пределах диапазона самых высоких человеческих оценок.
Исследователи также предложили GPT-3 решить набор вопросов по аналогии с SAT, которые, по их мнению, никогда не публиковались в Интернете — это означает, что эти вопросы вряд ли были частью обучающих данных GPT-3. В вопросах пользователям предлагается выбрать пары слов, которые имеют один и тот же тип связей. (Например, в задаче «»Любить» — значит «ненавидеть», поскольку «богатый» относится к какому слову?», решением было бы «бедный».)
Они сравнили баллы GPT-3 с опубликованными результатами тестов SAT абитуриентов колледжей и обнаружили, что ИИ показал лучшие результаты, чем средний балл для людей.
Затем исследователи попросили GPT-3 и студентов—добровольцев провести аналогии на основе коротких рассказов, предложив им прочитать один отрывок, а затем определить другую историю, которая передавала бы тот же смысл. Технология справилась с этими задачами хуже, чем студенты, хотя GPT-4, последняя итерация технологии OpenAI, показала лучшие результаты, чем GPT-3.
Исследователи Калифорнийского университета в Лос-Анджелесе разработали свою собственную компьютерную модель, основанную на человеческом познании, и сравнили ее возможности с возможностями коммерческого искусственного интеллекта.
«Искусственный интеллект становился все лучше, но наша психологическая модель искусственного интеллекта по-прежнему была лучшей в решении задач по аналогии до декабря прошлого года, когда Тейлор получил последнее обновление GPT-3, и она была такой же хорошей или даже лучше», — сказал профессор психологии Калифорнийского университета в Лос-Анджелесе Кит Холиоак, соавтор исследования.
Исследователи заявили, что GPT-3 до сих пор не смог решить проблемы, требующие понимания физического пространства. Например, если предоставить описание набора инструментов — скажем, картонной трубки, ножниц и скотча, — которые можно было бы использовать для перекладывания шариков из одной миски в другую, GPT-3 предложила необычные решения.
«Модели изучения языка просто пытаются предсказывать слова, поэтому мы удивлены, что они могут рассуждать», — сказал Лу. «За последние два года технология совершила большой скачок по сравнению со своими предыдущими воплощениями».
Ученые Калифорнийского университета в Лос-Анджелесе надеются выяснить, действительно ли модели изучения языка начинают «мыслить» как люди или делают что-то совершенно другое, просто имитируя человеческое мышление.
«GPT-3, возможно, в некотором роде мыслит как человек», — сказал Холиоак. «Но, с другой стороны, люди не учились, поглощая весь Интернет целиком, поэтому метод обучения совершенно другой. Мы хотели бы знать, действительно ли он делает это так, как делают люди, или это что—то совершенно новое — настоящий искусственный интеллект, — что было бы удивительно само по себе «.
Чтобы выяснить это, им нужно было бы определить основные когнитивные процессы, используемые моделями искусственного интеллекта, для чего потребовался бы доступ к программному обеспечению и к данным, используемым для обучения программного обеспечения, а затем провести тесты, которые, как они уверены, программное обеспечение еще не тестировало. Это, по их словам, станет следующим шагом в принятии решения о том, каким должен стать искусственный интеллект.
«Исследователям искусственного интеллекта и когнитивных наук было бы очень полезно иметь бэкенд для GPT-моделей», — сказал Уэбб. «Мы просто вводим данные и получаем результаты, и это не так важно, как нам бы хотелось».