Странный провал ИИ
By Kyle Chayka
Это классическое упражнение на уроке рисования в средней школе: ученица сидит за партой, держа в одной руке угольный карандаш над листом бумаги, а другая рука вытянута перед ней ладонью вверх, пальцы расслаблены так, что они загибаются внутрь. Затем она одной рукой рисует другую. Это задание для новичков, но задача убедительного изображения рук — одна из самых громких задач в изобразительном искусстве. Я помню, как это невероятно расстраивало — правильно определить углы и пропорции каждого пальца, определить, как большой палец соединяется с ладонью, показать, как один палец перекрывает другой. Слишком часто у меня получался причудливо длинный мизинец или большой палец, торчащий под невозможным углом, как сломанная кость. «Именно так студенты учатся рисовать: учатся внимательно присматриваться», — сказала мне Кристи Суси, моя школьная учительница рисования в Коннектикуте, когда я недавно ей позвонила. «Все предполагают, что знают, как выглядит рука, но пока вы действительно не посмотрите на нее, вы не поймете».
Искусственный интеллект сталкивается с аналогичной проблемой. Новые доступные инструменты, такие как Midjourney, Stable Diffusion и DALL-E, способны визуализировать фотореалистичный пейзаж, копировать лица знаменитостей, создавать ремиксы изображений в стиле любого художника и легко заменять фон изображения. В сентябре прошлого года изображение, созданное с помощью искусственного интеллекта, получило первый приз в области цифрового искусства на ярмарке штата Колорадо. Но когда им потребовалось нарисовать руки, инструменты выплевывали целый ряд кошмарных придатков: руки с дюжиной пальцев, руки с двумя большими пальцами, руки, из которых вырастали еще больше рук, словно какой-то ботанический мутант. На пальцах либо слишком много суставов, либо их нет вообще. Они похожи на схемы из медицинского учебника из инопланетного мира. Неспособность машин справиться с этой конкретной задачей стала популярной шуткой о недостатках ИИ. Как выразился один человек в Твиттере: «Никогда не спрашивайте женщину ее возраста или модель ИИ, почему они прячут руки».
Как сообщали другие, проблема с руками отчасти связана со способностью генераторов экстраполировать информацию из огромных наборов данных изображений, на которых они обучались. Когда пользователь вводит текстовую подсказку в генератор, он рисует бесчисленное количество связанных изображений и повторяет изученные шаблоны. Но, как археолог, пытающийся перевести египетские иероглифы с Розеттского камня, машина может делать выводы только на основе данного материала, и в ее знаниях есть пробелы, особенно когда дело доходит до целостного понимания сложных органических форм. Ошибочные или неполные наборы данных приводят к ошибочным результатам. Как недавно заявил лингвист Ноам Хомский и его соавторы в недавней статье Times, машины и люди учатся по-разному. «Человеческий разум не является, как ChatGPT и ему подобные, громоздкой статистической машиной для сопоставления с образцом, поглощающей сотни терабайт данных», — написали они. Вместо этого он «работает с небольшими объемами информации; он стремится не вывести грубые корреляции между точками данных, а создать объяснения».
Генератор может вычислить, что на руках есть пальцы, но его сложнее научить, чтобы он знал, что их должно быть только пять или что цифры имеют более или менее заданную длину по отношению друг к другу. Ведь руки под разными углами выглядят очень по-разному. Когда я печатаю это на клавиатуре ноутбука, глядя на свою пару, мои пальцы укорочены и наполовину скрыты ладонями; наблюдатель не сможет определить их точную рентгеновскую структуру по статическому изображению. Питер Бентли, профессор информатики Университетского колледжа Лондона, рассказал мне, что инструменты искусственного интеллекта «узнали, что руки состоят из таких элементов, как пальцы, ногти, ладони. Но они понятия не имеют, что такое рука на самом деле». Та же проблема иногда возникает, когда ИИ пытается визуализировать более мелкие детали, такие как уши, которые выглядят как мясистые водовороты без сложной хрящевой структуры; или зубы, которые неправильно сидят во рту; или зрачки, которые превращаются в козьи капли. ИИ может улавливать визуальные закономерности, но не лежащую в их основе биологическую логику.